MotionCrafter: 4D VAE를 활용한 밀집 기하학 및 동작 재구성
MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
February 9, 2026
저자: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI
초록
MotionCrafter는 단안 비디오에서 4D 기하구조를 복원하고 조밀한 운동을 추정하는 비디오 확산 기반 프레임워크입니다. 우리 방법의 핵심은 공유 좌표계에서 조밀한 3D 포인트 맵과 3D 장면 흐름을 함께 표현하는 새로운 결합 표현과, 이를 효과적으로 학습하는 새로운 4D VAE입니다. 기본적으로 분포가 다른 RGB VAE 잠재 공간과 3D 값 및 잠재 변수를 엄격하게 정렬하도록 강제하는 기존 연구와 달리, 우리는 이러한 정렬이 불필요하며 오히려 성능 저하를 초래함을 보여줍니다. 대신 확산 사전 지식을 더 효과적으로 전달하고 복원 품질을 크게 향상시키는 새로운 데이터 정규화 및 VAE 학습 전략을 도입했습니다. 다양한 데이터셋에서의 광범위한 실험을 통해 MotionCrafter는 사후 최적화 없이도 기하구조 복원 및 조밀한 장면 흐름 추정 모두에서 최첨단 성능을 달성하며, 각각 38.64% 및 25.0%의 향상을 보여줍니다. 프로젝트 페이지: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page