ChatPaper.aiChatPaper

DynamicVerse: Een Fysiek-Bewust Multimodaal Raamwerk voor 4D Wereldmodellering

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

December 2, 2025
Auteurs: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI

Samenvatting

Het begrijpen van de dynamische fysieke wereld, gekenmerkt door zijn evoluerende 3D-structuur, beweging in de echte wereld en semantische inhoud met tekstuele beschrijvingen, is cruciaal voor mens-agentinteractie en stelt belichaamde agents in staat om met mensachtige capaciteiten waar te nemen en te handelen in reële omgevingen. Bestaande datasets zijn echter vaak afgeleid van beperkte simulatoren of gebruiken traditionele Structure-from-Motion voor annotatie op schaal en bieden beperkte beschrijvende bijschriften, wat de mogelijkheid van foundation-modellen beperkt om real-world dynamiek nauwkeurig te interpreteren vanuit monocular video's, die vaak afkomstig zijn van het internet. Om deze kloof te overbruggen, introduceren wij DynamicVerse, een fysiek-schalig, multimodaal 4D-wereldmodelleringsraamwerk voor dynamische real-world video. Wij gebruiken grote visuele, geometrische en multimodale modellen om metrische statische geometrie, real-world dynamische beweging, instance-level maskers en holistische beschrijvende bijschriften te interpreteren. Door window-based Bundle Adjustment te integreren met globale optimalisatie, zet onze methode lange real-world videosequenties om in een uitgebreid 4D multimodaal formaat. DynamicVerse levert een grootschalige dataset bestaande uit 100K+ video's met 800K+ geannoteerde maskers en 10M+ frames uit internetvideo's. Experimentele evaluaties op drie benchmarktaken, namelijk videodiepte-inschatting, camerapositie-inschatting en cameraintrinsieke-inschatting, tonen aan dat onze 4D-modellering superieure prestaties levert in het vastleggen van fysiek-schalige metingen met een grotere globale nauwkeurigheid dan bestaande methoden.
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.
PDF353December 21, 2025