ChatPaper.aiChatPaper

OmniWorld: Un conjunto de datos multi-dominio y multimodal para el modelado 4D de mundos

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

September 15, 2025
Autores: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI

Resumen

El campo de modelado de mundos 4D, que busca capturar conjuntamente la geometría espacial y la dinámica temporal, ha experimentado un progreso notable en los últimos años, impulsado por avances en modelos generativos a gran escala y aprendizaje multimodal. Sin embargo, el desarrollo de modelos de mundos 4D verdaderamente generales sigue estando fundamentalmente limitado por la disponibilidad de datos de alta calidad. Los conjuntos de datos y puntos de referencia existentes a menudo carecen de la complejidad dinámica, la diversidad multidominio y las anotaciones espacio-temporales necesarias para respaldar tareas clave como la reconstrucción geométrica 4D, la predicción futura y la generación de videos con control de cámara. Para abordar esta brecha, presentamos OmniWorld, un conjunto de datos a gran escala, multidominio y multimodal diseñado específicamente para el modelado de mundos 4D. OmniWorld consta de un nuevo conjunto de datos recopilado, OmniWorld-Game, y varios conjuntos de datos públicos curados que abarcan diversos dominios. En comparación con los conjuntos de datos sintéticos existentes, OmniWorld-Game ofrece una cobertura de modalidades más rica, una escala mayor e interacciones dinámicas más realistas. Basándonos en este conjunto de datos, establecemos un punto de referencia desafiante que expone las limitaciones de los enfoques actuales de vanguardia (SOTA) en el modelado de entornos 4D complejos. Además, el ajuste fino de los métodos SOTA existentes en OmniWorld conduce a mejoras significativas en el rendimiento en tareas de reconstrucción 4D y generación de videos, validando firmemente a OmniWorld como un recurso poderoso para el entrenamiento y la evaluación. Visualizamos a OmniWorld como un catalizador para acelerar el desarrollo de modelos de mundos 4D de propósito general, avanzando finalmente hacia una comprensión holística del mundo físico por parte de las máquinas.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry and temporal dynamics - has witnessed remarkable progress in recent years, driven by advances in large-scale generative models and multimodal learning. However, the development of truly general 4D world models remains fundamentally constrained by the availability of high-quality data. Existing datasets and benchmarks often lack the dynamic complexity, multi-domain diversity, and spatial-temporal annotations required to support key tasks such as 4D geometric reconstruction, future prediction, and camera-control video generation. To address this gap, we introduce OmniWorld, a large-scale, multi-domain, multi-modal dataset specifically designed for 4D world modeling. OmniWorld consists of a newly collected OmniWorld-Game dataset and several curated public datasets spanning diverse domains. Compared with existing synthetic datasets, OmniWorld-Game provides richer modality coverage, larger scale, and more realistic dynamic interactions. Based on this dataset, we establish a challenging benchmark that exposes the limitations of current state-of-the-art (SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning existing SOTA methods on OmniWorld leads to significant performance gains across 4D reconstruction and video generation tasks, strongly validating OmniWorld as a powerful resource for training and evaluation. We envision OmniWorld as a catalyst for accelerating the development of general-purpose 4D world models, ultimately advancing machines' holistic understanding of the physical world.
PDF873September 16, 2025