ワールド・イン・ワールド:閉ループ世界における世界モデル
World-in-World: World Models in a Closed-Loop World
October 20, 2025
著者: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
要旨
生成的世界モデル(WMs)は現在、驚くべき視覚的リアリズムで世界をシミュレートすることが可能であり、これにより、それらが具現化されたエージェントに意思決定のための予測的知覚を提供できるかどうかという疑問が自然に浮かび上がる。この疑問に対する進展は、断片的な評価によって制限されてきた:既存のベンチマークのほとんどは、視覚的品質を孤立して強調するオープンループプロトコルを採用しており、具現化された有用性という核心的な問題、すなわちWMsが実際にエージェントが具現化されたタスクを成功させるのに役立つかどうか、を未解決のままにしている。このギャップを埋めるために、我々はWorld-in-Worldを導入する。これは、実際のエージェントと環境の相互作用を反映したクローズドループ世界でWMsをベンチマークする最初のオープンプラットフォームである。World-in-Worldは、統一されたオンラインプランニング戦略と標準化されたアクションAPIを提供し、異種のWMsを意思決定に利用可能にする。我々は、多様なWMsを厳密に評価し、タスクの成功を主要な指標として優先し、視覚的品質に焦点を当てる一般的なアプローチを超える4つのクローズドループ環境を選定した。また、具現化された設定における世界モデルの最初のデータスケーリング法則を提示する。我々の研究は、3つの驚くべき発見を明らかにした:(1)視覚的品質だけではタスクの成功を保証せず、制御可能性がより重要である;(2)事前学習済みのビデオジェネレータをアップグレードするよりも、アクション-観測データを用いた事後学習のスケーリングがより効果的である;(3)推論時の計算リソースをより多く割り当てることで、WMsはクローズドループ性能を大幅に向上させることができる。
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.