MotionCrafter: Dichte Geometrie- und Bewegungsrekonstruktion mit einem 4D-VAE
MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
February 9, 2026
papers.authors: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI
papers.abstract
Wir stellen MotionCrafter vor, ein auf Video-Diffusion basierendes Framework, das gemeinsam 4D-Geometrie rekonstruiert und dichte Bewegung aus einem monokularen Video schätzt. Der Kern unserer Methode ist eine neuartige gemeinsame Repräsentation von dichten 3D-Punktkarten und 3D-Szenenflüssen in einem gemeinsamen Koordinatensystem sowie ein neuartiger 4D-VAE, um diese Repräsentation effektiv zu erlernen. Im Gegensatz zu früheren Arbeiten, die die 3D-Werte und Latents zwingen, streng mit den RGB-VAE-Latents übereinzustimmen – trotz ihrer grundlegend unterschiedlichen Verteilungen – zeigen wir, dass eine solche Ausrichtung unnötig ist und zu suboptimaler Leistung führt. Stattdessen führen wir eine neue Datenormalisierung und VAE-Trainingsstrategie ein, die Diffusions-Priors besser überträgt und die Rekonstruktionsqualität erheblich verbessert. Umfangreiche Experimente über mehrere Datensätze hinweg belegen, dass MotionCrafter state-of-the-art Leistung sowohl in der Geometrierekonstruktion als auch in der Schätzung dichten Szenenflusses erreicht und Verbesserungen von 38,64 % bzw. 25,0 % in der Geometrie- und Bewegungsrekonstruktion liefert, alles ohne jegliche Nachoptimierung. Projektseite: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page