ChatPaper.aiChatPaper

Mondo-nel-Mondo: Modelli del Mondo in un Ambiente a Ciclo Chiuso

World-in-World: World Models in a Closed-Loop World

October 20, 2025
Autori: Jiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen
cs.AI

Abstract

I modelli generativi di mondi (World Models, WMs) sono ora in grado di simulare ambienti con un realismo visivo sorprendente, il che solleva naturalmente la questione se possano dotare agenti incarnati di percezione predittiva per il processo decisionale. I progressi su questo fronte sono stati limitati da valutazioni frammentate: la maggior parte dei benchmark esistenti adotta protocolli a ciclo aperto che enfatizzano la qualità visiva in isolamento, lasciando irrisolta la questione centrale dell'utilità incarnata, ovvero: i WMs aiutano effettivamente gli agenti a svolgere con successo compiti incarnati? Per colmare questa lacuna, introduciamo World-in-World, la prima piattaforma aperta che valuta i WMs in un mondo a ciclo chiuso che riflette le interazioni reali tra agente e ambiente. World-in-World fornisce una strategia unificata di pianificazione online e un'API standardizzata per le azioni, consentendo a WMs eterogenei di supportare il processo decisionale. Abbiamo curato quattro ambienti a ciclo chiuso che valutano rigorosamente diversi WMs, dando priorità al successo del compito come metrica principale e andando oltre il comune focus sulla qualità visiva; presentiamo inoltre la prima legge di scala dei dati per i modelli di mondi in contesti incarnati. Il nostro studio rivela tre sorprese: (1) la qualità visiva da sola non garantisce il successo del compito, la controllabilità è più importante; (2) il ridimensionamento post-addestramento con dati azione-osservazione è più efficace rispetto all'aggiornamento dei generatori di video pre-addestrati; e (3) allocare maggiori risorse computazionali durante l'inferenza consente ai WMs di migliorare significativamente le prestazioni a ciclo chiuso.
English
Generative world models (WMs) can now simulate worlds with striking visual realism, which naturally raises the question of whether they can endow embodied agents with predictive perception for decision making. Progress on this question has been limited by fragmented evaluation: most existing benchmarks adopt open-loop protocols that emphasize visual quality in isolation, leaving the core issue of embodied utility unresolved, i.e., do WMs actually help agents succeed at embodied tasks? To address this gap, we introduce World-in-World, the first open platform that benchmarks WMs in a closed-loop world that mirrors real agent-environment interactions. World-in-World provides a unified online planning strategy and a standardized action API, enabling heterogeneous WMs for decision making. We curate four closed-loop environments that rigorously evaluate diverse WMs, prioritize task success as the primary metric, and move beyond the common focus on visual quality; we also present the first data scaling law for world models in embodied settings. Our study uncovers three surprises: (1) visual quality alone does not guarantee task success, controllability matters more; (2) scaling post-training with action-observation data is more effective than upgrading the pretrained video generators; and (3) allocating more inference-time compute allows WMs to substantially improve closed-loop performance.
PDF713October 22, 2025