DynamicVerse: Un Framework Multimodale Fisicamente Consapevole per la Modellazione 4D di Mondi
DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
December 2, 2025
Autori: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI
Abstract
Comprendere il mondo fisico dinamico, caratterizzato dalla sua struttura 3D in evoluzione, dal movimento nel mondo reale e dal contenuto semantico con descrizioni testuali, è cruciale per l'interazione uomo-agente e consente agli agenti embodied di percepire e agire all'interno di ambienti reali con capacità simili a quelle umane. Tuttavia, i dataset esistenti sono spesso derivati da simulatori limitati o utilizzano tecniche tradizionali di Structure-from-Motion per annotazioni a scala reale, offrendo descrizioni testuali limitate. Ciò restringe la capacità dei modelli di base di interpretare accuratamente le dinamiche del mondo reale a partire da video monoculari, comunemente provenienti da internet. Per colmare queste lacune, introduciamo DynamicVerse, un framework di modellazione mondiale 4D multimodale e a scala fisica per video dinamici del mondo reale. Impieghiamo modelli di visione, geometria e multimodalità di grandi dimensioni per interpretare la geometria statica a scala metrica, il movimento dinamico nel mondo reale, maschere a livello di istanza e descrizioni testuali olistiche. Integrando il Bundle Adjustment basato su finestre con l'ottimizzazione globale, il nostro metodo converte lunghe sequenze video del mondo reale in un formato 4D multimodale completo. DynamicVerse fornisce un dataset su larga scala costituito da oltre 100.000 video con più di 800.000 maschere annotate e oltre 10 milioni di frame provenienti da video internet. Le valutazioni sperimentali su tre compiti di benchmark, ovvero la stima della profondità video, la stima della posa della telecamera e la stima dei parametri intrinseci della telecamera, dimostrano che la nostra modellazione 4D raggiunge prestazioni superiori nella cattura di misurazioni a scala fisica con una maggiore accuratezza globale rispetto ai metodi esistenti.
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.