MotionCrafter: Dichte Geometrie- en Bewegingsreconstructie met een 4D VAE
MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
February 9, 2026
Auteurs: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI
Samenvatting
Wij introduceren MotionCrafter, een op videodiffusie gebaseerd raamwerk dat gezamenlijk 4D-geometrie reconstrueert en dichte beweging schat uit een monovideo. De kern van onze methode is een nieuwe gezamenlijke representatie van dichte 3D-puntenkaarten en 3D-scene flows in een gedeeld coördinatenstelsel, en een nieuwe 4D-VAE om deze representatie effectief aan te leren. In tegenstelling tot eerder werk dat 3D-waarden en latenten forceert strikt uit te lijnen met RGB-VAE-latenten – ondanks hun fundamenteel verschillende verdelingen – tonen wij aan dat een dergelijke uitlijning onnodig is en leidt tot suboptimale prestaties. In plaats daarvan introduceren wij een nieuwe datanormalisatie- en VAE-trainingsstrategie die diffusieprioriteiten beter overdraagt en de reconstructiekwaliteit aanzienlijk verbetert. Uitgebreide experimenten op meerdere datasets tonen aan dat MotionCrafter state-of-the-art prestaties bereikt in zowel geometriereconstructie als dichte scene flow-schatting, met respectievelijk 38,64% en 25,0% verbeteringen in geometrie- en bewegingsreconstructie, allemaal zonder enige post-optimalisatie. Projectpagina: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page