ChatPaper.aiChatPaper

다이나믹버스: 4차원 세계 모델링을 위한 물리 인식 멀티모달 프레임워크

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

December 2, 2025
저자: Kairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan
cs.AI

초록

물리적 세계를 이해하는 것은 3D 구조의 진화, 실제 운동, 텍스트 설명을 포함한 의미론적 내용으로 특징지어지는 동적인 환경을 파악하는 것을 의미하며, 이는 인간-에이전트 상호작용에 중요하고 구현된 에이전트가 인간과 유사한 능력으로 실제 환경을 인지하고 행동할 수 있게 합니다. 그러나 기존 데이터셋은 제한된 시뮬레이터에서 도출되거나 정확한 크기 추정을 위해 전통적인 Structure-from-Motion을 사용하며, 제한된 설명적 캡션만을 제공하여 파운데이션 모델이 인터넷에서 흔히 얻는 단안 비디오로부터 실제 세계의 동역학을 정확히 해석하는 능력을 제한합니다. 이러한 격차를 해소하기 위해 우리는 동적인 실제 세계 비디오를 위한 물리적 규모의 멀티모달 4D 세계 모델링 프레임워크인 DynamicVerse를 소개합니다. 우리는 대규모 시각, 기하학적, 멀티모달 모델을 활용하여 미터법 규모의 정적 기하학, 실제 동적 운동, 인스턴스 수준 마스크, 그리고 전체론적 설명 캡션을 해석합니다. 윈도우 기반 Bundle Adjustment와 전역 최적화를 통합함으로써, 우리의 방법은 긴 실제 세계 비디오 시퀀스를 포괄적인 4D 멀티모달 형식으로 변환합니다. DynamicVerse는 인터넷 비디오로부터 10만 개 이상의 비디오, 80만 개 이상의 주석이 달린 마스크, 1000만 개 이상의 프레임으로 구성된 대규모 데이터셋을 제공합니다. 비디오 깊이 추정, 카메라 자세 추정, 카메라 내부 파라미터 추정이라는 세 가지 벤치마크 작업에 대한 실험적 평가는 우리의 4D 모델링이 기존 방법보다 더 큰 전역 정확도로 물리적 규모 측정값을 포착하는 데 있어 우수한 성능을 달성함을 보여줍니다.
English
Understanding the dynamic physical world, characterized by its evolving 3D structure, real-world motion, and semantic content with textual descriptions, is crucial for human-agent interaction and enables embodied agents to perceive and act within real environments with human-like capabilities. However, existing datasets are often derived from limited simulators or utilize traditional Structurefrom-Motion for up-to-scale annotation and offer limited descriptive captioning, which restricts the capacity of foundation models to accurately interpret real-world dynamics from monocular videos, commonly sourced from the internet. To bridge these gaps, we introduce DynamicVerse, a physical-scale, multimodal 4D world modeling framework for dynamic real-world video. We employ large vision, geometric, and multimodal models to interpret metric-scale static geometry, real-world dynamic motion, instance-level masks, and holistic descriptive captions. By integrating window-based Bundle Adjustment with global optimization, our method converts long real-world video sequences into a comprehensive 4D multimodal format. DynamicVerse delivers a large-scale dataset consisting of 100K+ videos with 800K+ annotated masks and 10M+ frames from internet videos. Experimental evaluations on three benchmark tasks, namely video depth estimation, camera pose estimation, and camera intrinsics estimation, demonstrate that our 4D modeling achieves superior performance in capturing physical-scale measurements with greater global accuracy than existing methods.
PDF152December 6, 2025