ChatPaper.aiChatPaper

Movimento 3-para-4: Reconstrução de Movimento 3D para Síntese 4D

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

January 20, 2026
Autores: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI

Resumo

Apresentamos o Motion 3-to-4, uma estrutura *feed-forward* para a síntese de objetos dinâmicos 4D de alta qualidade a partir de um único vídeo monocular e de uma malha de referência 3D opcional. Embora avanços recentes tenham melhorado significativamente a geração de conteúdo 2D, em vídeo e 3D, a síntese 4D permanece difícil devido à escassez de dados de treinamento e à ambiguidade inerente à recuperação de geometria e movimento a partir de uma vista monocular. O Motion 3-to-4 aborda esses desafios decompondo a síntese 4D em geração de forma 3D estática e reconstrução de movimento. Utilizando uma malha de referência canônica, nosso modelo aprende uma representação latente de movimento compacta e prevê trajetórias de vértices por quadro para recuperar uma geometria completa e temporalmente coerente. Um transformador escalável baseado em quadros confere ainda robustez a comprimentos de sequência variáveis. Avaliações em *benchmarks* padrão e em um novo conjunto de dados com geometria de verdade terrestre precisa demonstram que o Motion 3-to-4 oferece fidelidade e consistência espacial superiores em comparação com trabalhos anteriores. A página do projeto está disponível em https://motion3-to-4.github.io/.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
PDF102February 7, 2026