Motion 3-to-4: 4D 합성을 위한 3D 모션 재구성
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis
January 20, 2026
저자: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI
초록
단일 모노큘러 비디오와 선택적 3D 참조 메시로부터 고품질 4D 동적 객체를 합성하는 피드포워드 프레임워크인 Motion 3-to-4를 제안합니다. 최근 2D, 비디오, 3D 콘텐츠 생성 기술이 크게 발전했으나, 학습 데이터의 부족과 모노큘러 시점에서 기하학 및 운동을 복원하는固有的 모호함으로 인해 4D 합성은 여전히 어려운 과제로 남아 있습니다. Motion 3-to-4는 4D 합성을 정적 3D 형태 생성과 운동 재구성으로 분해하여 이러한 문제를 해결합니다. 표준 참조 메시를 활용하여 우리 모델은 간결한 운동 잠재 표현을 학습하고 프레임별 정점 궤적을 예측하여 완전한 시간적 일관성을 가진 기하학을 복원합니다. 확장 가능한 프레임별 트랜스포머는 다양한 시퀀스 길이에 대한 강건성을 더욱 향상시킵니다. 표준 벤치마크와 정확한 실측 기하학 데이터를 포함한 새로운 데이터셋에 대한 평가 결과, Motion 3-to-4가 기존 연구 대비 우수한 정확도와 공간 일관성을 제공함을 확인했습니다. 프로젝트 페이지는 https://motion3-to-4.github.io/에서 확인할 수 있습니다.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.