CurryX | VLM & WAM Post-training

🎬

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

Fanqing Meng*, Jiaqi Liao*, …, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo

ICML 2025

Project arXiv Code

PhyGenBench proposes a comprehensive benchmark evaluating physical commonsense in video generation models, towards building world simulators.

🎥

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang, Jiaqi Liao, …, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan

NeurIPS 2025

Project arXiv Code

VideoREPA learns physical knowledge for video generation via relational alignment with foundation models.

🏋️

Gym-V: A Unified Vision Environment System for Agentic Vision Research

Fanqing Meng*, …, Lingxiao Du, Jiawei Gu, Jiaqi Liao* (Co-first & Core Contributor), …, Linjie Li, Jiawei Gu, Ziqi Zhao, Mengkang Hu, Yue Zhang, Zichen Liu, Michael Qizhe Shieh

Preprint

arXiv Code

Gym-V provides a unified environment for agentic vision research, enabling systematic evaluation of vision-language models.

🌉

LangBridge: Interpreting Image as a Combination of Language Embeddings

Jiaqi Liao, Yuwei Niu, …, Fanqing Meng, Hao Li, Changyao Tian, Yinuo Du, Yuwen Xiong, Dianqi Li, Xizhou Zhu, Li Yuan, Jifeng Dai

ICCV 2025

Project arXiv Code

LangBridge proposes interpreting images as combinations of language embeddings, bridging vision and language representations.

🎨

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Yuwei Niu, …, Munan Ning, Mengren Zheng, Weiyang Jin, Bin Lin, Peng Jin, Jiaqi Liao, …, Chaoran Feng, Kunpeng Ning, Bin Zhu, Li Yuan

Preprint · ⭐ 100+ Stars

arXiv Code

WISE introduces a world knowledge-informed semantic evaluation framework for text-to-image generation.

🏆

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

Weiyang Jin, Yuwei Niu, Jiaqi Liao, …, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu

Preprint

Project arXiv Code

SRUM proposes a fine-grained self-rewarding mechanism for training unified multimodal models.

📦

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

Yuwei Niu, Weiyang Jin, Jiaqi Liao, …, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan

Preprint

arXiv Code

UniSandbox investigates the relationship between understanding and generation capabilities in unified multimodal models.

Jiaqi Liao 廖佳琪

Research

Projects

ClawMark Bench

Experience

Ant Group

About