OmniWorld: Мультидоменный и мультимодальный набор данных для 4D-моделирования мира
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
September 15, 2025
Авторы: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He
cs.AI
Аннотация
Область моделирования 4D-мира, направленная на совместное захват пространственной геометрии и временной динамики, за последние годы достигла значительного прогресса благодаря развитию крупномасштабных генеративных моделей и мультимодального обучения. Однако создание действительно универсальных моделей 4D-мира остается фундаментально ограниченным из-за недостатка высококачественных данных. Существующие наборы данных и бенчмарки часто не обладают необходимой динамической сложностью, мультидоменным разнообразием и пространственно-временными аннотациями, которые требуются для поддержки ключевых задач, таких как 4D-геометрическая реконструкция, прогнозирование будущего и генерация видео с управлением камерой. Чтобы устранить этот пробел, мы представляем OmniWorld — крупномасштабный мультидоменный мультимодальный набор данных, специально разработанный для моделирования 4D-мира. OmniWorld включает в себя новый набор данных OmniWorld-Game и несколько тщательно отобранных публичных наборов данных, охватывающих различные области. По сравнению с существующими синтетическими наборами данных, OmniWorld-Game предлагает более широкое покрытие модальностей, больший масштаб и более реалистичные динамические взаимодействия. На основе этого набора данных мы создаем сложный бенчмарк, который выявляет ограничения современных передовых (SOTA) подходов в моделировании сложных 4D-сред. Более того, тонкая настройка существующих SOTA-методов на OmniWorld приводит к значительному улучшению производительности в задачах 4D-реконструкции и генерации видео, что убедительно подтверждает OmniWorld как мощный ресурс для обучения и оценки. Мы видим OmniWorld как катализатор для ускорения разработки универсальных моделей 4D-мира, что в конечном итоге продвинет целостное понимание машинами физического мира.
English
The field of 4D world modeling - aiming to jointly capture spatial geometry
and temporal dynamics - has witnessed remarkable progress in recent years,
driven by advances in large-scale generative models and multimodal learning.
However, the development of truly general 4D world models remains fundamentally
constrained by the availability of high-quality data. Existing datasets and
benchmarks often lack the dynamic complexity, multi-domain diversity, and
spatial-temporal annotations required to support key tasks such as 4D geometric
reconstruction, future prediction, and camera-control video generation. To
address this gap, we introduce OmniWorld, a large-scale, multi-domain,
multi-modal dataset specifically designed for 4D world modeling. OmniWorld
consists of a newly collected OmniWorld-Game dataset and several curated public
datasets spanning diverse domains. Compared with existing synthetic datasets,
OmniWorld-Game provides richer modality coverage, larger scale, and more
realistic dynamic interactions. Based on this dataset, we establish a
challenging benchmark that exposes the limitations of current state-of-the-art
(SOTA) approaches in modeling complex 4D environments. Moreover, fine-tuning
existing SOTA methods on OmniWorld leads to significant performance gains
across 4D reconstruction and video generation tasks, strongly validating
OmniWorld as a powerful resource for training and evaluation. We envision
OmniWorld as a catalyst for accelerating the development of general-purpose 4D
world models, ultimately advancing machines' holistic understanding of the
physical world.