MotionCrafter: Ricostruzione Densa della Geometria e del Movimento con un VAE 4D

Abstract

Introduciamo MotionCrafter, un framework basato sulla diffusione video che ricostruisce congiuntamente la geometria 4D e stima il moto denso a partire da un video monoculare. Il cuore del nostro metodo è una nuova rappresentazione congiunta di mappe dense di punti 3D e flussi scenici 3D in un sistema di coordinate condiviso, e un nuovo VAE 4D per apprendere efficacemente questa rappresentazione. A differenza dei lavori precedenti che forzano l'allineamento rigoroso dei valori 3D e dei latenti con i latenti del VAE RGB - nonostante le loro distribuzioni fondamentalmente diverse - dimostriamo che tale allineamento è superfluo e porta a prestazioni subottimali. Proponiamo invece una nuova strategia di normalizzazione dei dati e di addestramento del VAE che trasferisce meglio i priori di diffusione e migliora notevolmente la qualità della ricostruzione. Esperimenti estesi su molteplici dataset dimostrano che MotionCrafter raggiunge prestazioni all'avanguardia sia nella ricostruzione geometrica che nella stima del flusso scenico denso, ottenendo miglioramenti rispettivamente del 38,64% e del 25,0% nella ricostruzione geometrica e del moto, tutto senza alcuna post-ottimizzazione. Pagina del progetto: https://ruijiezhu94.github.io/MotionCrafter_Page

English

We introduce MotionCrafter, a video diffusion-based framework that jointly reconstructs 4D geometry and estimates dense motion from a monocular video. The core of our method is a novel joint representation of dense 3D point maps and 3D scene flows in a shared coordinate system, and a novel 4D VAE to effectively learn this representation. Unlike prior work that forces the 3D value and latents to align strictly with RGB VAE latents-despite their fundamentally different distributions-we show that such alignment is unnecessary and leads to suboptimal performance. Instead, we introduce a new data normalization and VAE training strategy that better transfers diffusion priors and greatly improves reconstruction quality. Extensive experiments across multiple datasets demonstrate that MotionCrafter achieves state-of-the-art performance in both geometry reconstruction and dense scene flow estimation, delivering 38.64% and 25.0% improvements in geometry and motion reconstruction, respectively, all without any post-optimization. Project page: https://ruijiezhu94.github.io/MotionCrafter_Page

MotionCrafter: Ricostruzione Densa della Geometria e del Movimento con un VAE 4D

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Abstract

Support