MotionCrafter: Reconstrução Densa de Geometria e Movimento com um VAE 4D
MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE
February 9, 2026
Autores: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI
Resumo
Apresentamos o MotionCrafter, uma estrutura baseada em difusão de vídeo que reconstrói conjuntamente a geometria 4D e estima o movimento denso a partir de um vídeo monocular. O cerne do nosso método é uma nova representação conjunta de mapas de pontos 3D densos e fluxos de cena 3D em um sistema de coordenadas compartilhado, e um novo VAE 4D para aprender essa representação de forma eficaz. Diferente de trabalhos anteriores que forçam os valores 3D e os latentes a se alinharem estritamente com os latentes do VAE RGB - apesar de suas distribuições fundamentalmente diferentes - demonstramos que tal alinhamento é desnecessário e leva a um desempenho subótimo. Em vez disso, introduzimos uma nova estratégia de normalização de dados e treinamento de VAE que transfere melhor os *priors* de difusão e melhora significativamente a qualidade da reconstrução. Experimentos extensos em múltiplos conjuntos de dados demonstram que o MotionCrafter alcança desempenho state-of-the-art tanto na reconstrução geométrica quanto na estimativa de fluxo de cena denso, proporcionando melhorias de 38,64% e 25,0% na reconstrução geométrica e de movimento, respectivamente, tudo sem qualquer pós-otimização. Página do projeto: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page