OmniWorld: Un Dataset Multi-Dominio e Multi-Modale per la Modellazione 4D del Mondo
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
September 15, 2025
Autori: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI
Abstract
Il campo della modellazione 4D del mondo, che mira a catturare congiuntamente la geometria spaziale e le dinamiche temporali, ha registrato progressi significativi negli ultimi anni, grazie ai progressi nei modelli generativi su larga scala e nell'apprendimento multimodale. Tuttavia, lo sviluppo di veri e propri modelli 4D generali rimane fondamentalmente limitato dalla disponibilità di dati di alta qualità. I dataset e i benchmark esistenti spesso mancano della complessità dinamica, della diversità multi-dominio e delle annotazioni spazio-temporali necessarie per supportare compiti chiave come la ricostruzione geometrica 4D, la previsione futura e la generazione di video con controllo della telecamera. Per colmare questa lacuna, introduciamo OmniWorld, un dataset su larga scala, multi-dominio e multimodale, progettato specificamente per la modellazione 4D del mondo. OmniWorld è composto da un nuovo dataset raccolto, OmniWorld-Game, e da diversi dataset pubblici curati che coprono diversi domini. Rispetto ai dataset sintetici esistenti, OmniWorld-Game offre una copertura modale più ricca, una scala più ampia e interazioni dinamiche più realistiche. Basandoci su questo dataset, stabiliamo un benchmark impegnativo che mette in luce i limiti degli approcci all'avanguardia (SOTA) attuali nella modellazione di ambienti 4D complessi. Inoltre, il fine-tuning dei metodi SOTA esistenti su OmniWorld porta a significativi miglioramenti delle prestazioni nei compiti di ricostruzione 4D e generazione di video, convalidando fortemente OmniWorld come una risorsa potente per l'addestramento e la valutazione. Prevediamo che OmniWorld agirà come catalizzatore per accelerare lo sviluppo di modelli 4D generali, avanzando infine la comprensione olistica delle macchine del mondo fisico.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry
and temporal dynamics - has witnessed remarkable progress in recent years,
driven by advances in large-scale generative models and multimodal learning.
However, the development of truly general 4D world models remains fundamentally
constrained by the availability of high-quality data. Existing datasets and
benchmarks often lack the dynamic complexity, multi-domain diversity, and
spatial-temporal annotations required to support key tasks such as 4D geometric
reconstruction, future prediction, and camera-control video generation. To
address this gap, we introduce OmniWorld, a large-scale, multi-domain,
multi-modal dataset specifically designed for 4D world modeling. OmniWorld
consists of a newly collected OmniWorld-Game dataset and several curated public
datasets spanning diverse domains. Compared with existing synthetic datasets,
OmniWorld-Game provides richer modality coverage, larger scale, and more
realistic dynamic interactions. Based on this dataset, we establish a
challenging benchmark that exposes the limitations of current state-of-the-art
(SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning
existing SOTA methods on OmniWorld leads to significant performance gains
across 4D reconstruction and video generation tasks, strongly validating
OmniWorld as a powerful resource for training and evaluation. We envision
OmniWorld as a catalyst for accelerating the development of general-purpose 4D
world models, ultimately advancing machines' holistic understanding of the
physical world.