ChatPaper.aiChatPaper

OmniWorld: Een Multi-Domein en Multi-Modaal Dataset voor 4D Wereldmodellering

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

September 15, 2025
Auteurs: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI

Samenvatting

Het vakgebied van 4D-wereldmodellering - gericht op het gezamenlijk vastleggen van ruimtelijke geometrie en temporele dynamiek - heeft de afgelopen jaren aanzienlijke vooruitgang geboekt, aangedreven door ontwikkelingen in grootschalige generatieve modellen en multimodale leertechnieken. De ontwikkeling van echt algemene 4D-wereldmodellen blijft echter fundamenteel beperkt door de beschikbaarheid van hoogwaardige data. Bestaande datasets en benchmarks missen vaak de dynamische complexiteit, multidomein-diversiteit en ruimtelijk-temporele annotaties die nodig zijn om sleuteltaken zoals 4D-geometrische reconstructie, toekomstvoorspelling en camera-gestuurde videogeneratie te ondersteunen. Om deze kloof te dichten, introduceren we OmniWorld, een grootschalige, multidomein, multimodale dataset die specifiek is ontworpen voor 4D-wereldmodellering. OmniWorld bestaat uit een nieuw verzamelde OmniWorld-Game dataset en verschillende gecureerde publieke datasets die diverse domeinen bestrijken. In vergelijking met bestaande synthetische datasets biedt OmniWorld-Game rijkere modaliteitsdekking, een grotere schaal en meer realistische dynamische interacties. Op basis van deze dataset stellen we een uitdagende benchmark op die de beperkingen van huidige state-of-the-art (SOTA) benaderingen in het modelleren van complexe 4D-omgevingen blootlegt. Bovendien leidt het finetunen van bestaande SOTA-methoden op OmniWorld tot aanzienlijke prestatieverbeteringen bij 4D-reconstructie en videogeneratietaken, wat OmniWorld sterk valideert als een krachtige bron voor training en evaluatie. We zien OmniWorld als een katalysator voor het versnellen van de ontwikkeling van algemene 4D-wereldmodellen, wat uiteindelijk het holistische begrip van machines van de fysieke wereld zal bevorderen.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry and temporal dynamics - has witnessed remarkable progress in recent years, driven by advances in large-scale generative models and multimodal learning. However, the development of truly general 4D world models remains fundamentally constrained by the availability of high-quality data. Existing datasets and benchmarks often lack the dynamic complexity, multi-domain diversity, and spatial-temporal annotations required to support key tasks such as 4D geometric reconstruction, future prediction, and camera-control video generation. To address this gap, we introduce OmniWorld, a large-scale, multi-domain, multi-modal dataset specifically designed for 4D world modeling. OmniWorld consists of a newly collected OmniWorld-Game dataset and several curated public datasets spanning diverse domains. Compared with existing synthetic datasets, OmniWorld-Game provides richer modality coverage, larger scale, and more realistic dynamic interactions. Based on this dataset, we establish a challenging benchmark that exposes the limitations of current state-of-the-art (SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning existing SOTA methods on OmniWorld leads to significant performance gains across 4D reconstruction and video generation tasks, strongly validating OmniWorld as a powerful resource for training and evaluation. We envision OmniWorld as a catalyst for accelerating the development of general-purpose 4D world models, ultimately advancing machines' holistic understanding of the physical world.
PDF1034September 16, 2025