ChatPaper.aiChatPaper

MotionCrafter: Реконструкция плотной геометрии и движения с помощью 4D VAE

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

February 9, 2026
Авторы: Ruijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng
cs.AI

Аннотация

Мы представляем MotionCrafter — фреймворк на основе диффузионных моделей для видео, который совместно реконструирует 4D-геометрию и оценивает плотное движение по моноскопическому видео. Основой нашего метода является новое совместное представление плотных 3D-карт точек и 3D-потоков сцены в единой системе координат, а также новый 4D-VAE для эффективного обучения этому представлению. В отличие от предыдущих работ, которые жёстко выравнивают 3D-значения и латентные переменные по латентным переменным RGB-VAE — несмотря на их принципиально различное распределение — мы показываем, что такое выравнивание избыточно и приводит к неоптимальной производительности. Вместо этого мы предлагаем новую стратегию нормализации данных и обучения VAE, которая лучше переносит диффузионные априорные знания и значительно повышает качество реконструкции. Многочисленные эксперименты на различных наборах данных демонстрируют, что MotionCrafter достигает передовых результатов как в реконструкции геометрии, так и в оценке плотного потока сцены, обеспечивая улучшение на 38,64% и 25,0% соответственно, без какой-либо последующей оптимизации. Страница проекта: https://ruijiezhu94.github.io/MotionCrafter_Page
English
We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page
PDF32February 11, 2026