Publications - Jing Yu Koh

Multi-Agent Computer Use

Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried

Preprint, 2026.

Project Page PDF Code

Odysseys: A Benchmark for Long-Horizon Web Agents

Lawrence Jang*, Jing Yu Koh*, Daniel Fried, Ruslan Salakhutdinov (* denotes equal contribution)

2026.

Project Page PDF Leaderboard Code & Data

Tree Search for Language Model Agents

Jing Yu Koh, Stephen McAleer, Daniel Fried, Ruslan Salakhutdinov

TMLR, 2025.

Project Page PDF Code & Data

VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

Jing Yu Koh, Robert Lo*, Lawrence Jang*, Vikram Duvvur*, Ming Chong Lim*, Po-Yu Huang*, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried

ACL, 2024. As seen on: Wired.

Project Page PDF Code & Data Talk Wired Article

Generating Images with Multimodal Language Models

Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov

NeurIPS, 2023.

Project Page PDF Code Slides Talk

Grounding Language Models to Images for Multimodal Inputs and Outputs

Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried

ICML, 2023.

Project Page PDF Code Slides Talk

VQ3D: Learning a 3D-Aware Generative Model on ImageNet

Kyle Sargent, Jing Yu Koh, Han Zhang, Huiwen Chang, Charles Herrmann, Pratul Srinivasan, Jiajun Wu, Deqing Sun

ICCV (oral, best paper finalist), 2023.

Project Page PDF

Simple and Effective Synthesis of Indoor 3D Scenes

Jing Yu Koh*, Harsh Agrawal*, Dhruv Batra, Richard Tucker, Austin Waters, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson (* denotes equal contribution)

AAAI, 2023.

PDF Code Video

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, Yonghui Wu

TMLR, 2022.

Website PDF GitHub

Pathdreamer: A World Model for Indoor Navigation

Jing Yu Koh, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson

ICCV, 2021.

Blog Post Project Page PDF Code Demo Video

Vector-quantized Image Modeling with Improved VQGAN

Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu

ICLR, 2022.

PDF

Cross-Modal Contrastive Learning for Text-to-Image Generation

Han Zhang^*, Jing Yu Koh^*, Jason Baldridge, Honglak Lee, Yinfei Yang (* denotes equal contribution)

CVPR, 2021.

PDF Code

Text-to-Image Generation Grounded by Fine-Grained User Attention

Jing Yu Koh, Jason Baldridge, Honglak Lee, Yinfei Yang

WACV, 2021.

PDF Dataset The Batch Feature

Selected Publications

2026

2025

2024

2023

2022

2021