세계 속의 세계: 폐쇄형 세계에서의 세계 모델
World-in-World: World Models in a Closed-Loop World
October 20, 2025
저자: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
초록
생성적 세계 모델(World Models, WMs)은 이제 놀라운 시각적 현실감으로 세계를 시뮬레이션할 수 있으며, 이는 자연스럽게 이러한 모델이 구체화된 에이전트에게 예측적 인식을 제공하여 의사결정을 지원할 수 있는지에 대한 질문을 제기합니다. 이 질문에 대한 진전은 단편적인 평가로 인해 제한되어 왔습니다: 대부분의 기존 벤치마크는 시각적 품질만을 강조하는 개방형 루프 프로토콜을 채택하여, 세계 모델이 실제로 구체화된 작업에서 에이전트의 성공을 돕는지라는 핵심 문제를 해결하지 못했습니다. 이러한 격차를 해결하기 위해, 우리는 실제 에이전트-환경 상호작용을 반영한 폐쇄형 세계에서 세계 모델을 벤치마크하는 첫 번째 오픈 플랫폼인 World-in-World를 소개합니다. World-in-World는 통합된 온라인 계획 전략과 표준화된 액션 API를 제공하여 다양한 세계 모델이 의사결정을 할 수 있도록 합니다. 우리는 네 가지 폐쇄형 환경을 선별하여 다양한 세계 모델을 엄격히 평가하고, 작업 성공을 주요 지표로 삼아 시각적 품질에 대한 일반적인 초점을 넘어섭니다; 또한 구체화된 설정에서 세계 모델에 대한 첫 번째 데이터 스케일링 법칙을 제시합니다. 우리의 연구는 세 가지 놀라운 사실을 밝혀냈습니다: (1) 시각적 품질만으로는 작업 성공을 보장할 수 없으며, 제어 가능성이 더 중요하다; (2) 사전 훈련된 비디오 생성기를 업그레이드하는 것보다 액션-관찰 데이터로 사후 훈련을 확장하는 것이 더 효과적이다; (3) 추론 시간에 더 많은 컴퓨팅 자원을 할당하면 세계 모델이 폐쇄형 성능을 크게 향상시킬 수 있다.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.