ChatPaper.aiChatPaper

MotionCrafter: Reconstrucción Densa de Geometría y Movimiento con un VAE 4D

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

February 9, 2026
Autores: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI

Resumen

Presentamos MotionCrafter, un marco basado en difusión de vídeo que reconstruye conjuntamente la geometría 4D y estima el movimiento denso a partir de un vídeo monocular. El núcleo de nuestro método es una novedosa representación conjunta de mapas de puntos 3D densos y flujos de escena 3D en un sistema de coordenadas compartido, y un nuevo VAE 4D para aprender eficazmente esta representación. A diferencia de trabajos anteriores que fuerzan la alineación estricta de los valores 3D y los latentes con los latentes del VAE RGB —a pesar de sus distribuciones fundamentalmente diferentes— demostramos que dicha alineación es innecesaria y conduce a un rendimiento subóptimo. En su lugar, introducimos una nueva estrategia de normalización de datos y entrenamiento del VAE que transfiere mejor los priores de difusión y mejora enormemente la calidad de la reconstrucción. Experimentos exhaustivos en múltiples conjuntos de datos demuestran que MotionCrafter alcanza un rendimiento de vanguardia tanto en reconstrucción de geometría como en estimación de flujo de escena denso, logrando mejoras del 38,64% y del 25,0% en la reconstrucción de geometría y movimiento, respectivamente, todo ello sin ninguna post-optimización. Página del proyecto: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page
PDF32February 11, 2026