Beweging 3-naar-4: 3D-bewegingsreconstructie voor 4D-synthese
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis
January 20, 2026
Auteurs: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI
Samenvatting
Wij presenteren Motion 3-to-4, een voorwaarts werkend raamwerk voor het synthetiseren van hoogwaardige 4D dynamische objecten vanuit een enkel monocular video en een optioneel 3D-referentierooster. Hoewel recente vooruitgang de generatie van 2D-, video- en 3D-inhoud aanzienlijk heeft verbeterd, blijft 4D-synthese moeilijk vanwege beperkte trainingsgegevens en de inherente ambiguïteit van het herstellen van geometrie en beweging vanuit een enkel gezichtspunt. Motion 3-to-4 lost deze uitdagingen op door 4D-synthese op te splitsen in statische 3D-vormgeneratie en bewegingsreconstructie. Ons model leert, met behulp van een canoniek referentierooster, een compacte latente bewegingrepresentatie en voorspelt vertex trajecten per frame om complete, temporeel coherente geometrie te herstellen. Een schaalbare framegewijze transformer zorgt verder voor robuustheid tegen variërende sequentielengtes. Evaluaties op zowel standaardbenchmarks als een nieuwe dataset met nauwkeurige grondwaarheid-geometrie tonen aan dat Motion 3-to-4 superieure kwaliteit en ruimtelijke consistentie biedt in vergelijking met eerder werk. De projectpagina is beschikbaar op https://motion3-to-4.github.io/.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.