ChatPaper.aiChatPaper

DynamicVerse: 4D世界モデリングのための物理認識マルチモーダルフレームワーク

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

December 2, 2025
著者: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI

要旨

動的な物理世界を理解することは、人間とエージェントの相互作用にとって極めて重要であり、具身化エージェントが現実環境を人間のように知覚し行動することを可能にします。この世界は、進化する3D構造、実世界の動き、テキスト記述を含む意味内容によって特徴づけられます。しかし、既存のデータセットは限られたシミュレーターから派生しているか、実尺度の注釈に伝統的なStructure-from-Motionを利用しており、記述的なキャプションも限定的です。これにより、インターネットから一般的に取得される単眼ビデオから実世界のダイナミクスを正確に解釈する基盤モデルの能力が制限されています。 こうしたギャップを埋めるため、我々は動的実世界ビデオのための物理尺度・マルチモーダル4D世界モデリングフレームワーク「DynamicVerse」を提案します。大規模視覚モデル、幾何学モデル、マルチモーダルモデルを活用し、メートル法尺度での静的幾何学、実世界の動的動き、インスタンスレベルのマスク、全体的な記述的キャプションを解釈します。ウィンドウベースのバンドル調整と大域最適化を統合することで、長時間の実世界ビデオシーケンスを包括的な4Dマルチモーダル形式に変換します。DynamicVerseは、インターネットビデオから収集した10万以上のビデオ、80万以上の注釈付きマスク、1000万以上のフレームで構成される大規模データセットを提供します。 ビデオ深度推定、カメラ姿勢推定、カメラ内部パラメータ推定という3つのベンチマークタスクにおける実験的評価により、我々の4Dモデリングが物理尺度の測定において既存手法よりも優れ、より高い大域的精度を達成することが実証されました。
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.
PDF152December 6, 2025