ChatPaper.aiChatPaper

DynamicVerse : Un cadre multimodal physiquement conscient pour la modélisation de mondes 4D

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

December 2, 2025
papers.authors: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI

papers.abstract

Comprendre le monde physique dynamique, caractérisé par sa structure 3D évolutive, son mouvement réaliste et son contenu sémantique avec des descriptions textuelles, est crucial pour l'interaction humain-agent et permet aux agents incarnés de percevoir et d'agir dans des environnements réels avec des capacités semblables à celles des humains. Cependant, les ensembles de données existants proviennent souvent de simulateurs limités ou utilisent la Structure from Motion traditionnelle pour des annotations à l'échelle réelle, et offrent un étiquetage descriptif restreint, ce qui limite la capacité des modèles de base à interpréter avec précision la dynamique du monde réel à partir de vidéos monoculaires, généralement issues d'internet. Pour combler ces lacunes, nous présentons DynamicVerse, un cadre de modélisation mondiale 4D multimodale à l'échelle physique pour les vidéos dynamiques du monde réel. Nous utilisons de grands modèles visuels, géométriques et multimodaux pour interpréter la géométrie statique à échelle métrique, le mouvement dynamique réaliste, les masques au niveau de l'instance et les légendes descriptives holistiques. En intégrant l'ajustement de faisceaux par fenêtres avec une optimisation globale, notre méthode convertit de longues séquences vidéo du monde réel en un format 4D multimodal complet. DynamicVerse fournit un jeu de données à grande échelle comprenant plus de 100 000 vidéos avec plus de 800 000 masques annotés et plus de 10 millions d'images issues de vidéos internet. Les évaluations expérimentales sur trois tâches de référence, à savoir l'estimation de la profondeur vidéo, l'estimation de la pose de la caméra et l'estimation des paramètres intrinsèques de la caméra, démontrent que notre modélisation 4D atteint des performances supérieures pour capturer des mesures à l'échelle physique avec une précision globale accrue par rapport aux méthodes existantes.
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.
PDF152December 6, 2025