Мир в Мире: Мировые модели в замкнутом мире
World-in-World: World Models in a Closed-Loop World
October 20, 2025
Авторы: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
Аннотация
Генеративные модели мира (WMs) теперь способны симулировать миры с поразительной визуальной реалистичностью, что естественно поднимает вопрос о том, могут ли они наделить воплощённых агентов прогностическим восприятием для принятия решений. Прогресс в этом вопросе ограничивается фрагментированной оценкой: большинство существующих бенчмарков используют открытые протоколы, которые акцентируют внимание на визуальном качестве изолированно, оставляя ключевой вопрос полезности для воплощённых агентов нерешённым, а именно: действительно ли WMs помогают агентам успешно выполнять задачи в реальной среде? Чтобы устранить этот пробел, мы представляем World-in-World — первую открытую платформу, которая оценивает WMs в замкнутом мире, отражающем реальные взаимодействия агента и среды. World-in-World предоставляет унифицированную стратегию онлайн-планирования и стандартизированный API для действий, позволяя использовать разнородные WMs для принятия решений. Мы создали четыре замкнутых среды, которые строго оценивают различные WMs, приоритизируют успешность выполнения задач как основной метрики и выходят за рамки традиционного акцента на визуальное качество; мы также представляем первый закон масштабирования данных для моделей мира в условиях воплощённых агентов. Наше исследование выявило три неожиданных результата: (1) визуальное качество само по себе не гарантирует успешность задач, важнее управляемость; (2) масштабирование после обучения с данными о действиях и наблюдениях более эффективно, чем улучшение предобученных генераторов видео; (3) выделение большего объёма вычислительных ресурсов на этапе вывода позволяет WMs значительно улучшить производительность в замкнутом цикле.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.