DynamicVerse: Uma Estrutura Multimodal Fisicamente Consciente para Modelagem de Mundos 4D

Resumo

Compreender o mundo físico dinâmico, caracterizado pela sua estrutura 3D em evolução, movimento do mundo real e conteúdo semântico com descrições textuais, é crucial para a interação humano-agente e capacita agentes incorporados a perceber e agir dentro de ambientes reais com capacidades semelhantes às humanas. No entanto, os conjuntos de dados existentes são frequentemente derivados de simuladores limitados ou utilizam Estrutura a partir do Movimento tradicional para anotação em escala real e oferecem legendagem descritiva limitada, o que restringe a capacidade dos modelos de base para interpretar com precisão a dinâmica do mundo real a partir de vídeos monoculares, comumente provenientes da internet. Para preencher essas lacunas, apresentamos o DynamicVerse, uma estrutura de modelagem mundial 4D multimodal e em escala física para vídeos dinâmicos do mundo real. Empregamos modelos grandes de visão, geometria e multimodais para interpretar geometria estática em escala métrica, movimento dinâmico do mundo real, máscaras a nível de instância e legendas descritivas holísticas. Ao integrar o Ajustamento de Feixe baseado em janelas com otimização global, nosso método converte longas sequências de vídeo do mundo real em um formato multimodal 4D abrangente. O DynamicVerse fornece um conjunto de dados em larga escala composto por mais de 100 mil vídeos com mais de 800 mil máscaras anotadas e mais de 10 milhões de quadros de vídeos da internet. Avaliações experimentais em três tarefas de referência, nomeadamente estimativa de profundidade em vídeo, estimativa de pose da câmera e estimativa de intrínsecos da câmera, demonstram que nossa modelagem 4D alcança desempenho superior na captura de medições em escala física com maior precisão global do que os métodos existentes.

English

Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.

DynamicVerse: Uma Estrutura Multimodal Fisicamente Consciente para Modelagem de Mundos 4D

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

Resumo

Support