ChatPaper.aiChatPaper

MoVieS: 1초 내 모션 인식 4D 동적 뷰 합성

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

July 14, 2025
저자: Chenguo Lin, Yuchen Lin, Panwang Pan, Yifan Yu, Honglei Yan, Katerina Fragkiadaki, Yadong Mu
cs.AI

초록

본 논문에서는 단일 모노큘러 비디오로부터 4D 동적 신규 시점을 1초 만에 합성하는 새로운 피드포워드 모델인 MoVieS를 소개한다. MoVieS는 픽셀 정렬된 가우시안 프리미티브 그리드를 사용하여 동적 3D 장면을 표현하며, 이들의 시간에 따른 움직임을 명시적으로 지도한다. 이를 통해 처음으로 외관, 기하학 및 움직임의 통합 모델링이 가능해졌으며, 단일 학습 기반 프레임워크 내에서 시점 합성, 재구성 및 3D 포인트 추적을 수행할 수 있다. 신규 시점 합성과 동적 기하학 재구성을 연결함으로써, MoVieS는 다양한 데이터셋에 대한 대규모 학습을 가능하게 하며, 작업별 지도에 대한 의존도를 최소화한다. 결과적으로, 장면 흐름 추정 및 이동 물체 분할과 같은 다양한 제로샷 응용을 자연스럽게 지원한다. 광범위한 실험을 통해 MoVieS의 효과성과 효율성을 다중 작업에 걸쳐 검증하였으며, 경쟁력 있는 성능을 달성하면서도 수 배의 속도 향상을 제공한다.
English
We present MoVieS, a novel feed-forward model that synthesizes 4D dynamic novel views from monocular videos in one second. MoVieS represents dynamic 3D scenes using pixel-aligned grids of Gaussian primitives, explicitly supervising their time-varying motion. This allows, for the first time, the unified modeling of appearance, geometry and motion, and enables view synthesis, reconstruction and 3D point tracking within a single learning-based framework. By bridging novel view synthesis with dynamic geometry reconstruction, MoVieS enables large-scale training on diverse datasets with minimal dependence on task-specific supervision. As a result, it also naturally supports a wide range of zero-shot applications, such as scene flow estimation and moving object segmentation. Extensive experiments validate the effectiveness and efficiency of MoVieS across multiple tasks, achieving competitive performance while offering several orders of magnitude speedups.
PDF133July 15, 2025