ChatPaper.aiChatPaper

Monde-dans-le-Monde : Modèles de monde dans un univers en boucle fermée

World-in-World: World Models in a Closed-Loop World

October 20, 2025
papers.authors: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI

papers.abstract

Les modèles génératifs de mondes (WMs) peuvent désormais simuler des environnements avec un réalisme visuel frappant, ce qui soulève naturellement la question de savoir s'ils peuvent doter des agents incarnés d'une perception prédictive pour la prise de décision. Les progrès sur cette question ont été limités par une évaluation fragmentée : la plupart des benchmarks existants adoptent des protocoles en boucle ouverte qui mettent l'accent sur la qualité visuelle de manière isolée, laissant la question centrale de l'utilité incarnée non résolue, c'est-à-dire, les WMs aident-ils réellement les agents à réussir des tâches incarnées ? Pour combler cette lacune, nous introduisons World-in-World, la première plateforme ouverte qui évalue les WMs dans un monde en boucle fermée reflétant les interactions réelles entre agents et environnement. World-in-World propose une stratégie de planification en ligne unifiée et une API d'action standardisée, permettant à des WMs hétérogènes de prendre des décisions. Nous avons conçu quatre environnements en boucle fermée qui évaluent rigoureusement divers WMs, privilégient la réussite des tâches comme métrique principale et dépassent l'accent commun sur la qualité visuelle ; nous présentons également la première loi d'échelle des données pour les modèles de mondes dans des contextes incarnés. Notre étude révèle trois surprises : (1) la qualité visuelle seule ne garantit pas la réussite des tâches, la contrôlabilité compte davantage ; (2) l'augmentation des données d'action-observation après l'entraînement est plus efficace que l'amélioration des générateurs de vidéos pré-entraînés ; et (3) l'allocation de plus de ressources de calcul lors de l'inférence permet aux WMs d'améliorer considérablement les performances en boucle fermée.
English
Generative world models (WMs) can now simulate worlds with striking visual realism, which naturally raises the question of whether they can endow embodied agents with predictive perception for decision making. Progress on this question has been limited by fragmented evaluation: most existing benchmarks adopt open-loop protocols that emphasize visual quality in isolation, leaving the core issue of embodied utility unresolved, i.e., do WMs actually help agents succeed at embodied tasks? To address this gap, we introduce World-in-World, the first open platform that benchmarks WMs in a closed-loop world that mirrors real agent-environment interactions. World-in-World provides a unified online planning strategy and a standardized action API, enabling heterogeneous WMs for decision making. We curate four closed-loop environments that rigorously evaluate diverse WMs, prioritize task success as the primary metric, and move beyond the common focus on visual quality; we also present the first data scaling law for world models in embodied settings. Our study uncovers three surprises: (1) visual quality alone does not guarantee task success, controllability matters more; (2) scaling post-training with action-observation data is more effective than upgrading the pretrained video generators; and (3) allocating more inference-time compute allows WMs to substantially improve closed-loop performance.
PDF713October 22, 2025