World-in-World: Weltmodelle in einer geschlossenen Schleife der Welt
World-in-World: World Models in a Closed-Loop World
October 20, 2025
papers.authors: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI
papers.abstract
Generative Weltmodelle (WMs) können inzwischen Welten mit beeindruckender visueller Realität simulieren, was zwangsläufig die Frage aufwirft, ob sie verkörperten Agenten prädiktive Wahrnehmung für Entscheidungsfindung vermitteln können. Fortschritte in dieser Frage wurden durch fragmentierte Evaluierung begrenzt: Die meisten bestehenden Benchmarks verwenden offene Protokolle, die die visuelle Qualität isoliert betonen, wodurch die Kernfrage der verkörperten Nützlichkeit ungelöst bleibt, d. h., helfen WMs tatsächlich Agenten dabei, verkörperte Aufgaben erfolgreich zu bewältigen? Um diese Lücke zu schließen, führen wir World-in-World ein, die erste offene Plattform, die WMs in einer geschlossenen Schleife bewertet, die reale Interaktionen zwischen Agent und Umwelt widerspiegelt. World-in-World bietet eine einheitliche Online-Planungsstrategie und eine standardisierte Aktions-API, die heterogene WMs für die Entscheidungsfindung ermöglicht. Wir kuratieren vier geschlossene Umgebungen, die verschiedene WMs rigoros bewerten, den Aufgaben-Erfolg als primäre Metrik priorisieren und über die gängige Fokussierung auf visuelle Qualität hinausgehen; wir präsentieren auch das erste Datenskalierungsgesetz für Weltmodelle in verkörperten Kontexten. Unsere Studie deckt drei Überraschungen auf: (1) Visuelle Qualität allein garantiert keinen Aufgaben-Erfolg, Kontrollierbarkeit ist entscheidender; (2) Skalierung nach dem Training mit Aktions-Beobachtungs-Daten ist effektiver als das Aufrüsten der vortrainierten Video-Generatoren; und (3) Die Zuweisung von mehr Inferenzzeit-Ressourcen ermöglicht es WMs, die geschlossene Schleifenleistung erheblich zu verbessern.
English
Generative world models (WMs) can now simulate worlds with striking visual
realism, which naturally raises the question of whether they can endow embodied
agents with predictive perception for decision making. Progress on this
question has been limited by fragmented evaluation: most existing benchmarks
adopt open-loop protocols that emphasize visual quality in isolation, leaving
the core issue of embodied utility unresolved, i.e., do WMs actually help
agents succeed at embodied tasks? To address this gap, we introduce
World-in-World, the first open platform that benchmarks WMs in a closed-loop
world that mirrors real agent-environment interactions. World-in-World provides
a unified online planning strategy and a standardized action API, enabling
heterogeneous WMs for decision making. We curate four closed-loop environments
that rigorously evaluate diverse WMs, prioritize task success as the primary
metric, and move beyond the common focus on visual quality; we also present the
first data scaling law for world models in embodied settings. Our study
uncovers three surprises: (1) visual quality alone does not guarantee task
success, controllability matters more; (2) scaling post-training with
action-observation data is more effective than upgrading the pretrained video
generators; and (3) allocating more inference-time compute allows WMs to
substantially improve closed-loop performance.