Omni-WorldBench: Verso una Valutazione Completa Centrata sull'Interazione per i Modelli del Mondo

Abstract

I modelli mondiali basati su video si sono affermati seguendo due paradigmi dominanti: la generazione video e la ricostruzione 3D. Tuttavia, i benchmark di valutazione esistenti si concentrano in modo ristretto sulla fedeltà visiva e sull'allineamento testo-video per i modelli generativi, oppure si basano su metriche statiche di ricostruzione 3D che trascurano fondamentalmente le dinamiche temporali. Sosteniamo che il futuro della modellazione del mondo risieda nella generazione 4D, che modella congiuntamente la struttura spaziale e l'evoluzione temporale. In questo paradigma, la capacità fondamentale è la risposta interattiva: l'abilità di riflettere fedelmente come le azioni di interazione guidano le transizioni di stato attraverso lo spazio e il tempo. Tuttavia, nessun benchmark esistente valuta sistematicamente questa dimensione critica. Per colmare questa lacuna, proponiamo Omni-WorldBench, un benchmark completo specificamente progettato per valutare le capacità di risposta interattiva dei modelli mondiali in contesti 4D. Omni-WorldBench comprende due componenti chiave: Omni-WorldSuite, una suite sistematica di prompt che copre diversi livelli di interazione e tipi di scenari; e Omni-Metrics, un framework di valutazione basato su agenti che quantifica le capacità di modellazione del mondo misurando l'impatto causale delle azioni di interazione sia sugli esiti finali che sulle traiettorie di evoluzione degli stati intermedi. Abbiamo condotto valutazioni estensive di 18 modelli mondiali rappresentativi appartenenti a molteplici paradigmi. La nostra analisi rivela limitazioni critiche degli attuali modelli mondiali nella risposta interattiva, fornendo spunti operativi per la ricerca futura. Omni-WorldBench sarà rilasciato pubblicamente per promuovere il progresso nella modellazione interattiva del mondo 4D.

English

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.

Omni-WorldBench: Verso una Valutazione Completa Centrata sull'Interazione per i Modelli del Mondo

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Abstract

Support