Mundo-en-Mundo: Modelos del Mundo en un Entorno de Bucle Cerrado
World-in-World: World Models in a Closed-Loop World
October 20, 2025
Autores: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
Resumen
Los modelos generativos de mundos (WMs, por sus siglas en inglés) pueden ahora simular entornos con un realismo visual sorprendente, lo que plantea naturalmente la pregunta de si pueden dotar a agentes corporizados de percepción predictiva para la toma de decisiones. El progreso en esta cuestión se ha visto limitado por una evaluación fragmentada: la mayoría de los puntos de referencia existentes adoptan protocolos de bucle abierto que enfatizan la calidad visual de manera aislada, dejando sin resolver el problema central de la utilidad corporizada, es decir, ¿realmente ayudan los WMs a los agentes a tener éxito en tareas corporizadas? Para abordar esta brecha, presentamos World-in-World, la primera plataforma abierta que evalúa WMs en un entorno de bucle cerrado que refleja las interacciones reales entre agentes y su entorno. World-in-World proporciona una estrategia unificada de planificación en línea y una API de acciones estandarizada, permitiendo que WMs heterogéneos participen en la toma de decisiones. Hemos seleccionado cuatro entornos de bucle cerrado que evalúan rigurosamente diversos WMs, priorizan el éxito en la tarea como métrica principal y van más allá del enfoque común en la calidad visual; también presentamos la primera ley de escalado de datos para modelos de mundos en entornos corporizados. Nuestro estudio revela tres sorpresas: (1) la calidad visual por sí sola no garantiza el éxito en la tarea, la controlabilidad es más importante; (2) escalar después del entrenamiento con datos de acción-observación es más efectivo que mejorar los generadores de video preentrenados; y (3) asignar más recursos de cómputo en tiempo de inferencia permite que los WMs mejoren sustancialmente el rendimiento en bucle cerrado.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.