OmniWorld: 4D 세계 모델링을 위한 다중 도메인 및 다중 모달 데이터셋
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
September 15, 2025
저자: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI
초록
공간적 기하학과 시간적 동역학을 동시에 포착하는 것을 목표로 하는 4D 세계 모델링 분야는 최근 몇 년 동안 대규모 생성 모델과 다중모달 학습의 발전으로 인해 눈부신 진전을 이루었습니다. 그러나 진정으로 일반적인 4D 세계 모델의 개발은 고품질 데이터의 가용성에 의해 근본적으로 제약받고 있습니다. 기존의 데이터셋과 벤치마크는 종종 4D 기하학적 재구성, 미래 예측, 카메라 제어 비디오 생성과 같은 핵심 작업을 지원하는 데 필요한 동적 복잡성, 다중 도메인 다양성, 시공간 주석이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 4D 세계 모델링을 위해 특별히 설계된 대규모, 다중 도메인, 다중모달 데이터셋인 OmniWorld를 소개합니다. OmniWorld는 새로 수집된 OmniWorld-Game 데이터셋과 다양한 도메인을 아우르는 여러 공개 데이터셋으로 구성됩니다. 기존의 합성 데이터셋과 비교하여, OmniWorld-Game은 더 풍부한 모달리티 범위, 더 큰 규모, 그리고 더 현실적인 동적 상호작용을 제공합니다. 이 데이터셋을 기반으로, 우리는 복잡한 4D 환경을 모델링하는 데 있어 현재 최첨단(SOTA) 접근법의 한계를 드러내는 도전적인 벤치마크를 구축합니다. 또한, OmniWorld에서 기존 SOTA 방법을 미세 조정하면 4D 재구성 및 비디오 생성 작업 전반에 걸쳐 상당한 성능 향상을 이끌어내어, OmniWorld가 훈련 및 평가를 위한 강력한 자원임을 강력히 입증합니다. 우리는 OmniWorld가 범용 4D 세계 모델의 개발을 가속화하는 촉매제가 되어, 궁극적으로 기계가 물리적 세계를 종합적으로 이해하는 데 진전을 이루는 데 기여할 것으로 기대합니다.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry
and temporal dynamics - has witnessed remarkable progress in recent years,
driven by advances in large-scale generative models and multimodal learning.
However, the development of truly general 4D world models remains fundamentally
constrained by the availability of high-quality data. Existing datasets and
benchmarks often lack the dynamic complexity, multi-domain diversity, and
spatial-temporal annotations required to support key tasks such as 4D geometric
reconstruction, future prediction, and camera-control video generation. To
address this gap, we introduce OmniWorld, a large-scale, multi-domain,
multi-modal dataset specifically designed for 4D world modeling. OmniWorld
consists of a newly collected OmniWorld-Game dataset and several curated public
datasets spanning diverse domains. Compared with existing synthetic datasets,
OmniWorld-Game provides richer modality coverage, larger scale, and more
realistic dynamic interactions. Based on this dataset, we establish a
challenging benchmark that exposes the limitations of current state-of-the-art
(SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning
existing SOTA methods on OmniWorld leads to significant performance gains
across 4D reconstruction and video generation tasks, strongly validating
OmniWorld as a powerful resource for training and evaluation. We envision
OmniWorld as a catalyst for accelerating the development of general-purpose 4D
world models, ultimately advancing machines' holistic understanding of the
physical world.