Wereld-in-Wereld: Wereldmodellen in een Gesloten-Lus Wereld
World-in-World: World Models in a Closed-Loop World
October 20, 2025
Auteurs: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
Samenvatting
Generatieve wereldmodellen (WMs) kunnen nu werelden simuleren met opvallend visueel realisme, wat van nature de vraag oproept of ze belichaamde agenten kunnen voorzien van voorspellende perceptie voor besluitvorming. Vooruitgang op dit gebied is beperkt gebleven door gefragmenteerde evaluatie: de meeste bestaande benchmarks hanteren open-loop protocollen die visuele kwaliteit in isolatie benadrukken, waardoor de kernkwestie van belichaamde bruikbaarheid onopgelost blijft, namelijk: helpen WMs agenten daadwerkelijk om te slagen in belichaamde taken? Om dit gat te dichten, introduceren we World-in-World, het eerste open platform dat WMs benchmarkt in een gesloten-lus wereld die echte agent-omgeving interacties nabootst. World-in-World biedt een uniforme online planningsstrategie en een gestandaardiseerde actie-API, waardoor heterogene WMs kunnen worden ingezet voor besluitvorming. We hebben vier gesloten-lus omgevingen samengesteld die diverse WMs rigoureus evalueren, taaksucces als primaire metriek prioriteren, en verder gaan dan de gebruikelijke focus op visuele kwaliteit; we presenteren ook de eerste dataschaalwet voor wereldmodellen in belichaamde settings. Onze studie onthult drie verrassingen: (1) visuele kwaliteit alleen garandeert geen taaksucces, beheersbaarheid is belangrijker; (2) schalen na de training met actie-observatiegegevens is effectiever dan het upgraden van de vooraf getrainde videogeneratoren; en (3) het toewijzen van meer rekentijd tijdens de inferentie stelt WMs in staat om de gesloten-lus prestaties aanzienlijk te verbeteren.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.