DynamicVerse: Ein physikalisches multimodales Framework zur 4D-Weltmodellierung
DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
December 2, 2025
papers.authors: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI
papers.abstract
Das Verständnis der dynamischen physikalischen Welt, die durch ihre sich entwickelnde 3D-Struktur, reale Bewegungsabläufe und semantische Inhalte mit textuellen Beschreibungen gekennzeichnet ist, ist entscheidend für die Mensch-Agenten-Interaktion und befähigt verkörperte Agenten, mit menschenähnlichen Fähigkeiten in realen Umgebungen zu wahrzunehmen und zu handeln. Bisherige Datensätze stammen jedoch oft aus eingeschränkten Simulatoren oder nutzen traditionelle Structure-from-Motion-Verfahren für maßstabsgetreue Annotationen und bieten nur begrenzte deskriptive Beschreibungen, was die Fähigkeit von Foundation-Modellen einschränkt, die Dynamik der realen Welt aus monokularen Videos, die üblicherweise aus dem Internet stammen, präzise zu interpretieren. Um diese Lücken zu schließen, stellen wir DynamicVerse vor, einen physikalisch maßstabsgetreuen, multimodalen 4D-Weltmodellierungsrahmen für dynamische reale Videos. Wir setzen große Vision-, Geometrie- und Multimodale Modelle ein, um metrische statische Geometrie, reale dynamische Bewegung, instanzenbezogene Masken und ganzheitliche deskriptive Beschreibungen zu interpretieren. Durch die Integration von fensterbasiertem Bundle Adjustment mit globaler Optimierung wandelt unsere Methode lange reale Videosequenzen in ein umfassendes 4D-multimodales Format um. DynamicVerse liefert einen groß angelegten Datensatz, bestehend aus über 100.000 Videos mit mehr als 800.000 annotierten Masken und über 10 Millionen Einzelbildern aus Internetvideos. Experimentelle Auswertungen an drei Benchmark-Aufgaben – nämlich Videotiefenschätzung, Kamerapositionsschätzung und Schätzung der Kameraintrinsika – zeigen, dass unsere 4D-Modellierung bei der Erfassung physikalischer Maßstabsmessungen eine überlegene Leistung mit höherer globaler Genauigkeit als bestehende Methoden erzielt.
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.