ChatPaper.aiChatPaper

Movimento da 3 a 4: Ricostruzione del Movimento 3D per la Sintesi 4D

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

January 20, 2026
Autori: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI

Abstract

Presentiamo Motion 3-to-4, un framework feed-forward per la sintesi di oggetti dinamici 4D di alta qualità a partire da un singolo video monoculare e da una mesh di riferimento 3D opzionale. Sebbene i recenti progressi abbiano notevolmente migliorato la generazione di contenuti 2D, video e 3D, la sintesi 4D rimane difficile a causa della limitata disponibilità di dati di addestramento e dell'ambiguità intrinseca nel recuperare la geometria e il moto da un punto di vista monoculare. Motion 3-to-4 affronta queste sfide scomponendo la sintesi 4D in generazione di forma 3D statica e ricostruzione del moto. Utilizzando una mesh di riferimento canonica, il nostro modello apprende una rappresentazione latente compatta del moto e predice le traiettorie dei vertici per fotogramma per recuperare una geometria completa e temporalmente coerente. Un transformer scalabile operante su singoli fotogramma garantisce inoltre robustezza rispetto a lunghezze variabili della sequenza. Le valutazioni su benchmark standard e su un nuovo dataset con geometria ground-truth accurata dimostrano che Motion 3-to-4 fornisce una fedeltà e una coerenza spaziale superiori rispetto ai lavori precedenti. La pagina del progetto è disponibile all'indirizzo https://motion3-to-4.github.io/.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
PDF102February 7, 2026