Monde-dans-le-Monde : Modèles de monde dans un univers en boucle fermée
World-in-World: World Models in a Closed-Loop World
October 20, 2025
papers.authors: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
papers.abstract
Les modèles génératifs de mondes (WMs) peuvent désormais simuler des environnements avec un réalisme visuel frappant, ce qui soulève naturellement la question de savoir s'ils peuvent doter des agents incarnés d'une perception prédictive pour la prise de décision. Les progrès sur cette question ont été limités par une évaluation fragmentée : la plupart des benchmarks existants adoptent des protocoles en boucle ouverte qui mettent l'accent sur la qualité visuelle de manière isolée, laissant la question centrale de l'utilité incarnée non résolue, c'est-à-dire, les WMs aident-ils réellement les agents à réussir des tâches incarnées ? Pour combler cette lacune, nous introduisons World-in-World, la première plateforme ouverte qui évalue les WMs dans un monde en boucle fermée reflétant les interactions réelles entre agents et environnement. World-in-World propose une stratégie de planification en ligne unifiée et une API d'action standardisée, permettant à des WMs hétérogènes de prendre des décisions. Nous avons conçu quatre environnements en boucle fermée qui évaluent rigoureusement divers WMs, privilégient la réussite des tâches comme métrique principale et dépassent l'accent commun sur la qualité visuelle ; nous présentons également la première loi d'échelle des données pour les modèles de mondes dans des contextes incarnés. Notre étude révèle trois surprises : (1) la qualité visuelle seule ne garantit pas la réussite des tâches, la contrôlabilité compte davantage ; (2) l'augmentation des données d'action-observation après l'entraînement est plus efficace que l'amélioration des générateurs de vidéos pré-entraînés ; et (3) l'allocation de plus de ressources de calcul lors de l'inférence permet aux WMs d'améliorer considérablement les performances en boucle fermée.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.