MotionCrafter : Reconstruction dense de la géométrie et du mouvement avec un VAE 4D
MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
February 9, 2026
papers.authors: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI
papers.abstract
Nous présentons MotionCrafter, un cadre basé sur la diffusion vidéo qui reconstruit conjointement la géométrie 4D et estime le mouvement dense à partir d'une vidéo monoculaire. Le cœur de notre méthode repose sur une nouvelle représentation conjointe de cartes de points 3D denses et de flux scéniques 3D dans un système de coordonnées partagé, ainsi que sur un nouveau VAE 4D pour apprendre efficacement cette représentation. Contrairement aux travaux antérieurs qui forcent les valeurs 3D et les latentes à s'aligner strictement sur les latentes des VAE RVB – malgré leurs distributions fondamentalement différentes – nous montrons qu'un tel alignement est inutile et conduit à des performances sous-optimales. Nous introduisons plutôt une nouvelle stratégie de normalisation des données et d'entraînement du VAE qui transfère mieux les préalables de diffusion et améliore considérablement la qualité de la reconstruction. Des expériences approfondies sur plusieurs jeux de données démontrent que MotionCrafter atteint des performances de pointe à la fois en reconstruction géométrique et en estimation de flux scénique dense, offrant des améliorations de 38,64 % et 25,0 % respectivement en reconstruction géométrique et motrice, le tout sans aucune post-optimisation. Page du projet : https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page