DynamicVerse: Un Marco Multimodal Físicamente Consciente para el Modelado de Mundos 4D
DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
December 2, 2025
Autores: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI
Resumen
Comprender el mundo físico dinámico, caracterizado por su estructura 3D en evolución, el movimiento del mundo real y el contenido semántico con descripciones textuales, es crucial para la interacción humano-agente y permite a los agentes incorporados percibir y actuar en entornos reales con capacidades similares a las humanas. Sin embargo, los conjuntos de datos existentes a menudo se derivan de simuladores limitados o utilizan la técnica tradicional de Estructura a partir del Movimiento para anotaciones a escala real y ofrecen un etiquetado descriptivo limitado, lo que restringe la capacidad de los modelos fundacionales para interpretar con precisión la dinámica del mundo real a partir de vídeos monoculares, comúnmente obtenidos de internet. Para salvar estas brechas, presentamos DynamicVerse, un marco de modelado mundial 4D multimodal a escala física para vídeos dinámicos del mundo real. Empleamos modelos grandes de visión, geometría y multimodales para interpretar la geometría estática a escala métrica, el movimiento dinámico del mundo real, máscaras a nivel de instancia y descripciones textuales holísticas. Al integrar el Ajuste de Haces basado en ventanas con optimización global, nuestro método convierte secuencias de vídeo largas del mundo real en un formato multimodal 4D integral. DynamicVerse proporciona un conjunto de datos a gran escala que consta de más de 100.000 vídeos con más de 800.000 máscaras anotadas y más de 10 millones de fotogramas procedentes de vídeos de internet. Las evaluaciones experimentales en tres tareas de referencia, a saber, estimación de profundidad en vídeo, estimación de la pose de la cámara y estimación de los parámetros intrínsecos de la cámara, demuestran que nuestro modelado 4D logra un rendimiento superior en la captura de mediciones a escala física con una mayor precisión global que los métodos existentes.
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.