OmniWorld: Ein Multi-Domain- und Multi-Modal-Datensatz für die 4D-Weltmodellierung
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
September 15, 2025
papers.authors: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI
papers.abstract
Das Feld der 4D-Weltmodellierung – das darauf abzielt, räumliche Geometrie und zeitliche Dynamik gemeinsam zu erfassen – hat in den letzten Jahren bemerkenswerte Fortschritte erzielt, angetrieben durch Fortschritte bei großskaligen generativen Modellen und multimodalem Lernen. Die Entwicklung wirklich allgemeiner 4D-Weltmodelle bleibt jedoch grundlegend durch die Verfügbarkeit hochwertiger Daten eingeschränkt. Bestehende Datensätze und Benchmarks weisen oft die dynamische Komplexität, multidomänale Vielfalt und raumzeitlichen Annotationen, die zur Unterstützung von Schlüsselaufgaben wie 4D-geometrischer Rekonstruktion, Zukunftsprognose und kameragesteuerter Videogenerierung erforderlich sind, nicht auf. Um diese Lücke zu schließen, stellen wir OmniWorld vor, einen großskaligen, multidomänen, multimodalen Datensatz, der speziell für die 4D-Weltmodellierung entwickelt wurde. OmniWorld besteht aus einem neu erhobenen OmniWorld-Game-Datensatz und mehreren kuratierten öffentlichen Datensätzen, die verschiedene Domänen abdecken. Im Vergleich zu bestehenden synthetischen Datensätzen bietet OmniWorld-Game eine umfangreichere Modaldeckung, größeren Umfang und realistischere dynamische Interaktionen. Basierend auf diesem Datensatz etablieren wir einen anspruchsvollen Benchmark, der die Grenzen aktueller State-of-the-Art (SOTA)-Ansätze bei der Modellierung komplexer 4D-Umgebungen aufzeigt. Darüber hinaus führt das Feinabstimmen bestehender SOTA-Methoden auf OmniWorld zu signifikanten Leistungssteigerungen bei 4D-Rekonstruktions- und Videogenerierungsaufgaben, was OmniWorld als leistungsstarke Ressource für Training und Evaluation stark validiert. Wir sehen OmniWorld als Katalysator, der die Entwicklung allgemeiner 4D-Weltmodelle beschleunigt und letztendlich das ganzheitliche Verständnis von Maschinen für die physische Welt vorantreibt.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry
and temporal dynamics - has witnessed remarkable progress in recent years,
driven by advances in large-scale generative models and multimodal learning.
However, the development of truly general 4D world models remains fundamentally
constrained by the availability of high-quality data. Existing datasets and
benchmarks often lack the dynamic complexity, multi-domain diversity, and
spatial-temporal annotations required to support key tasks such as 4D geometric
reconstruction, future prediction, and camera-control video generation. To
address this gap, we introduce OmniWorld, a large-scale, multi-domain,
multi-modal dataset specifically designed for 4D world modeling. OmniWorld
consists of a newly collected OmniWorld-Game dataset and several curated public
datasets spanning diverse domains. Compared with existing synthetic datasets,
OmniWorld-Game provides richer modality coverage, larger scale, and more
realistic dynamic interactions. Based on this dataset, we establish a
challenging benchmark that exposes the limitations of current state-of-the-art
(SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning
existing SOTA methods on OmniWorld leads to significant performance gains
across 4D reconstruction and video generation tasks, strongly validating
OmniWorld as a powerful resource for training and evaluation. We envision
OmniWorld as a catalyst for accelerating the development of general-purpose 4D
world models, ultimately advancing machines' holistic understanding of the
physical world.