ChatPaper.aiChatPaper

MotionCrafter: 4D VAEによる高密度ジオメトリ・モーション再構成

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

February 9, 2026
著者: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI

要旨

本論文では、単眼ビデオから4Dジオメトリを再構築し、密なモーションを推定するビデオ拡散ベースのフレームワーク「MotionCrafter」を提案する。本手法の中核は、共有座標系における密な3Dポイントマップと3Dシーンフローの新規結合表現、およびこの表現を効果的に学習する新しい4D VAEである。根本的に分布が異なるにもかかわらず、3Dの値と潜在変数をRGB VAEの潜在変数に厳密に一致させる従来研究とは異なり、我々はそのような一致が不必要であり、最適でない性能を招くことを示す。代わりに、拡散事前分布をより良く転送し、再構築品質を大幅に改善する、新しいデータ正規化とVAE学習戦略を導入する。複数のデータセットにおける広範な実験により、MotionCrafterがジオメトリ再構築と密なシーンフロー推定の両方で最先端の性能を達成し、ポスト最適化を一切行うことなく、それぞれジオメトリで38.64%、モーション再構築で25.0%の改善を実現することを実証する。プロジェクトページ: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page
PDF32February 11, 2026