OmniWorld: Um Conjunto de Dados Multi-Domínio e Multi-Modal para Modelagem de Mundos 4D
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
September 15, 2025
Autores: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI
Resumo
O campo de modelagem de mundos 4D - que visa capturar conjuntamente a geometria espacial e a dinâmica temporal - tem testemunhado progressos notáveis nos últimos anos, impulsionado por avanços em modelos generativos em larga escala e aprendizado multimodal. No entanto, o desenvolvimento de modelos de mundo 4D verdadeiramente gerais continua fundamentalmente limitado pela disponibilidade de dados de alta qualidade. Os conjuntos de dados e benchmarks existentes frequentemente carecem da complexidade dinâmica, diversidade multidisciplinar e anotações espaço-temporais necessárias para apoiar tarefas essenciais, como reconstrução geométrica 4D, previsão futura e geração de vídeos com controle de câmera. Para preencher essa lacuna, apresentamos o OmniWorld, um conjunto de dados em larga escala, multidisciplinar e multimodal, especificamente projetado para modelagem de mundos 4D. O OmniWorld consiste em um novo conjunto de dados coletado, o OmniWorld-Game, e vários conjuntos de dados públicos curados que abrangem diversos domínios. Em comparação com os conjuntos de dados sintéticos existentes, o OmniWorld-Game oferece uma cobertura de modalidades mais rica, escala maior e interações dinâmicas mais realistas. Com base nesse conjunto de dados, estabelecemos um benchmark desafiador que expõe as limitações das abordagens state-of-the-art (SOTA) atuais na modelagem de ambientes 4D complexos. Além disso, o ajuste fino de métodos SOTA existentes no OmniWorld resulta em ganhos significativos de desempenho em tarefas de reconstrução 4D e geração de vídeos, validando fortemente o OmniWorld como um recurso poderoso para treinamento e avaliação. Enxergamos o OmniWorld como um catalisador para acelerar o desenvolvimento de modelos de mundo 4D de propósito geral, avançando, em última análise, a compreensão holística das máquinas sobre o mundo físico.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry
and temporal dynamics - has witnessed remarkable progress in recent years,
driven by advances in large-scale generative models and multimodal learning.
However, the development of truly general 4D world models remains fundamentally
constrained by the availability of high-quality data. Existing datasets and
benchmarks often lack the dynamic complexity, multi-domain diversity, and
spatial-temporal annotations required to support key tasks such as 4D geometric
reconstruction, future prediction, and camera-control video generation. To
address this gap, we introduce OmniWorld, a large-scale, multi-domain,
multi-modal dataset specifically designed for 4D world modeling. OmniWorld
consists of a newly collected OmniWorld-Game dataset and several curated public
datasets spanning diverse domains. Compared with existing synthetic datasets,
OmniWorld-Game provides richer modality coverage, larger scale, and more
realistic dynamic interactions. Based on this dataset, we establish a
challenging benchmark that exposes the limitations of current state-of-the-art
(SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning
existing SOTA methods on OmniWorld leads to significant performance gains
across 4D reconstruction and video generation tasks, strongly validating
OmniWorld as a powerful resource for training and evaluation. We envision
OmniWorld as a catalyst for accelerating the development of general-purpose 4D
world models, ultimately advancing machines' holistic understanding of the
physical world.