Bewegung 3-zu-4: 3D-Bewegungsrekonstruktion für 4D-Synthese
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis
January 20, 2026
papers.authors: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI
papers.abstract
Wir stellen Motion 3-to-4 vor, ein vorwärtsgerichtetes Framework zur Synthese hochwertiger 4D-Dynamikobjekte aus einem einzelnen monokularen Video und einem optionalen 3D-Referenzgitter. Obwohl jüngste Fortschritte die Generierung von 2D-, Video- und 3D-Inhalten erheblich verbessert haben, bleibt die 4D-Synthese aufgrund begrenzter Trainingsdaten und der inhärenten Mehrdeutigkeit bei der Rekonstruktion von Geometrie und Bewegung aus einer monokularen Perspektive schwierig. Motion 3-to-4 adressiert diese Herausforderungen, indem es die 4D-Synthese in die Generierung einer statischen 3D-Form und die Bewegungsrekonstruktion zerlegt. Unser Modell lernt unter Verwendung eines kanonischen Referenzgitters eine kompakte latente Bewegungsrepräsentation und sagt pro Frame Vertex-Trajektorien vorher, um eine vollständige, zeitlich kohärente Geometrie wiederherzustellen. Ein skalierbarer frame-weiser Transformer ermöglicht zudem Robustheit gegenüber variierenden Sequenzlängen. Evaluationen sowohl auf Standard-Benchmarks als auch auf einem neuen Datensatz mit präziser Ground-Truth-Geometrie zeigen, dass Motion 3-to-4 im Vergleich zu früheren Arbeiten eine überlegene Detailtreue und räumliche Konsistenz liefert. Die Projektseite ist unter https://motion3-to-4.github.io/ verfügbar.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.