Mundo-no-Mundo: Modelos de Mundo em um Ambiente de Malha Fechada
World-in-World: World Models in a Closed-Loop World
October 20, 2025
Autores: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
Resumo
Modelos generativos de mundos (WMs) agora podem simular mundos com um realismo visual impressionante, o que naturalmente levanta a questão de se eles podem dotar agentes incorporados de percepção preditiva para tomada de decisões. O progresso nessa questão tem sido limitado pela avaliação fragmentada: a maioria dos benchmarks existentes adota protocolos de loop aberto que enfatizam a qualidade visual de forma isolada, deixando a questão central da utilidade incorporada sem resolução, ou seja, os WMs realmente ajudam os agentes a terem sucesso em tarefas incorporadas? Para abordar essa lacuna, introduzimos o World-in-World, a primeira plataforma aberta que avalia WMs em um mundo de loop fechado que espelha as interações reais entre agente e ambiente. O World-in-World fornece uma estratégia unificada de planejamento online e uma API de ação padronizada, permitindo que WMs heterogêneos sejam usados para tomada de decisões. Nós selecionamos quatro ambientes de loop fechado que avaliam rigorosamente diversos WMs, priorizam o sucesso da tarefa como a métrica principal e vão além do foco comum na qualidade visual; também apresentamos a primeira lei de escalonamento de dados para modelos de mundos em cenários incorporados. Nosso estudo revela três surpresas: (1) a qualidade visual por si só não garante o sucesso da tarefa, a controlabilidade importa mais; (2) escalonar pós-treinamento com dados de ação-observação é mais eficaz do que atualizar os geradores de vídeo pré-treinados; e (3) alocar mais recursos computacionais durante a inferência permite que os WMs melhorem substancialmente o desempenho em loop fechado.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.