ChatPaper.aiChatPaper

Movimiento 3-a-4: Reconstrucción de Movimiento 3D para Síntesis 4D

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

January 20, 2026
Autores: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI

Resumen

Presentamos Motion 3-to-4, un marco de trabajo de propagación directa para sintetizar objetos dinámicos 4D de alta calidad a partir de un único vídeo monocular y una malla de referencia 3D opcional. Si bien los avances recientes han mejorado significativamente la generación de contenido 2D, de vídeo y 3D, la síntesis 4D sigue siendo un desafío debido a la escasez de datos de entrenamiento y la ambigüedad inherente de reconstruir la geometría y el movimiento desde una vista monocular. Motion 3-to-4 aborda estos problemas descomponiendo la síntesis 4D en la generación de una forma 3D estática y la reconstrucción del movimiento. Utilizando una malla de referencia canónica, nuestro modelo aprende una representación latente compacta del movimiento y predice trayectorias de vértices por fotograma para recuperar una geometría completa y temporalmente coherente. Un transformador escalable por fotograma aporta además robustez frente a longitudes de secuencia variables. Las evaluaciones en benchmarks estándar y en un nuevo conjunto de datos con geometría de verdad terreno precisa demuestran que Motion 3-to-4 ofrece una fidelidad y consistencia espacial superiores en comparación con trabajos anteriores. La página del proyecto está disponible en https://motion3-to-4.github.io/.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
PDF01January 23, 2026