ChatPaper.aiChatPaper

Motion 3-to-4: 4D合成のための3Dモーション再構築

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

January 20, 2026
著者: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI

要旨

本論文では、単眼ビデオとオプションの3D参照メッシュから高品質な4D動的オブジェクトを合成するフィードフォワードフレームワーク「Motion 3-to-4」を提案する。2D、ビデオ、3Dコンテンツ生成は近年著しく進展したが、学習データの不足や単眼視点からの形状・運動復元に内在する曖昧さのため、4D合成は依然として困難である。Motion 3-to-4は、4D合成を静的な3D形状生成と運動復元に分解することでこれらの課題に取り組む。正準参照メッシュを用いて、コンパクトな運動潜在表現を学習し、フレーム毎の頂点軌跡を予測することで、完全かつ時間的に一貫したジオメトリを復元する。スケーラブルなフレーム単位のトランスフォーマーにより、様々なシーケンス長に対する頑健性も実現している。標準ベンチマークと正確なグラウンドトゥルース形状を有する新規データセットによる評価では、Motion 3-to-4が従来手法を上回る精緻性と空間的一貫性を達成することが示された。プロジェクトページはhttps://motion3-to-4.github.io/で公開されている。
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
PDF01January 23, 2026