ChatPaper.aiChatPaper

OmniWorld : Un ensemble de données multi-domaines et multi-modales pour la modélisation 4D du monde

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

September 15, 2025
papers.authors: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI

papers.abstract

Le domaine de la modélisation 4D du monde, visant à capturer conjointement la géométrie spatiale et la dynamique temporelle, a connu des progrès remarquables ces dernières années, grâce aux avancées des modèles génératifs à grande échelle et de l'apprentissage multimodal. Cependant, le développement de modèles 4D du monde véritablement généraux reste fondamentalement limité par la disponibilité de données de haute qualité. Les ensembles de données et benchmarks existants manquent souvent de la complexité dynamique, de la diversité multi-domaines et des annotations spatio-temporelles nécessaires pour soutenir des tâches clés telles que la reconstruction géométrique 4D, la prédiction future et la génération de vidéos avec contrôle de caméra. Pour combler cette lacune, nous présentons OmniWorld, un ensemble de données à grande échelle, multi-domaines et multimodal, spécialement conçu pour la modélisation 4D du monde. OmniWorld se compose d'un nouvel ensemble de données collecté, OmniWorld-Game, et de plusieurs ensembles de données publics soigneusement sélectionnés couvrant divers domaines. Par rapport aux ensembles de données synthétiques existants, OmniWorld-Game offre une couverture modale plus riche, une plus grande échelle et des interactions dynamiques plus réalistes. Sur la base de cet ensemble de données, nous établissons un benchmark exigeant qui met en lumière les limites des approches actuelles de pointe (SOTA) dans la modélisation d'environnements 4D complexes. De plus, le fine-tuning des méthodes SOTA existantes sur OmniWorld entraîne des gains de performance significatifs dans les tâches de reconstruction 4D et de génération de vidéos, validant ainsi fortement OmniWorld comme une ressource puissante pour l'entraînement et l'évaluation. Nous envisageons OmniWorld comme un catalyseur pour accélérer le développement de modèles 4D du monde à usage général, faisant ainsi progresser la compréhension holistique des machines du monde physique.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry and temporal dynamics - has witnessed remarkable progress in recent years, driven by advances in large-scale generative models and multimodal learning. However, the development of truly general 4D world models remains fundamentally constrained by the availability of high-quality data. Existing datasets and benchmarks often lack the dynamic complexity, multi-domain diversity, and spatial-temporal annotations required to support key tasks such as 4D geometric reconstruction, future prediction, and camera-control video generation. To address this gap, we introduce OmniWorld, a large-scale, multi-domain, multi-modal dataset specifically designed for 4D world modeling. OmniWorld consists of a newly collected OmniWorld-Game dataset and several curated public datasets spanning diverse domains. Compared with existing synthetic datasets, OmniWorld-Game provides richer modality coverage, larger scale, and more realistic dynamic interactions. Based on this dataset, we establish a challenging benchmark that exposes the limitations of current state-of-the-art (SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning existing SOTA methods on OmniWorld leads to significant performance gains across 4D reconstruction and video generation tasks, strongly validating OmniWorld as a powerful resource for training and evaluation. We envision OmniWorld as a catalyst for accelerating the development of general-purpose 4D world models, ultimately advancing machines' holistic understanding of the physical world.
PDF1034September 16, 2025