ChatPaper.aiChatPaper

Mouvement 3-vers-4 : Reconstruction du mouvement 3D pour la synthèse 4D

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

January 20, 2026
papers.authors: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI

papers.abstract

Nous présentons Motion 3-to-4, un cadre de traitement direct pour la synthèse d'objets dynamiques 4D de haute qualité à partir d'une vidéo monoculaire unique et d'un maillage de référence 3D optionnel. Bien que les avancées récentes aient considérablement amélioré la génération de contenu 2D, vidéo et 3D, la synthèse 4D reste difficile en raison du manque de données d'apprentissage et de l'ambiguïté inhérente à la reconstruction de la géométrie et du mouvement à partir d'une vue monoculaire. Motion 3-to-4 relève ces défis en décomposant la synthèse 4D en une génération de forme 3D statique et une reconstruction du mouvement. En utilisant un maillage de référence canonique, notre modèle apprend une représentation latente compacte du mouvement et prédit des trajectoires de vertex par image pour reconstruire une géométrie complète et temporellement cohérente. Un transformeur adaptable image par image assure en outre une robustesse face aux différentes longueurs de séquence. Les évaluations sur des benchmarks standards et un nouveau jeu de données avec une géométrie de vérité terrain précise démontrent que Motion 3-to-4 offre une fidélité et une cohérence spatiale supérieures aux travaux antérieurs. La page du projet est disponible à l'adresse https://motion3-to-4.github.io/.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
PDF01January 23, 2026