Ricostruzione della Geometria 3D e Generazione del Movimento Congiunte per la Sintesi 4D a Partire da una Singola Immagine
Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image
December 4, 2025
Autori: Yanran Zhang, Ziyi Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Abstract
La generazione di scene 4D interattive e dinamiche a partire da una singola immagine statica rimane una sfida fondamentale. La maggior parte dei metodi esistenti di tipo "genera-e-ricostruisci" o "ricostruisci-e-genera" disaccoppia la geometria dal movimento, causando inconsistenze spazio-temporali e una scarsa generalizzazione. Per affrontare questi problemi, estendiamo il framework "ricostruisci-e-genera" per eseguire congiuntamente la generazione del movimento e la ricostruzione geometrica per la sintesi 4D (MoRe4D). Introduciamo innanzitutto TrajScene-60K, un dataset su larga scala di 60.000 campioni video con traiettorie dense di punti, che affronta la carenza di dati di scene 4D di alta qualità. Su questa base, proponiamo un Generatore di Traiettorie per Scene 4D (4D-STraG) basato su modelli di diffusione, per generare congiuntamente traiettorie di punti 4D geometricamente consistenti e con movimento plausibile. Per sfruttare i prior da vista singola, progettiamo una strategia di normalizzazione del movimento guidata dalla profondità e un modulo motion-aware per un'integrazione efficace di geometria e dinamica. Proponiamo quindi un Modulo di Sintesi di Viste 4D (4D-ViSM) per renderizzare video con traiettorie di camera arbitrarie a partire dalle rappresentazioni delle tracce di punti 4D. Gli esperimenti dimostrano che MoRe4D genera scene 4D di alta qualità con consistenza multi-vista e ricchi dettagli dinamici a partire da una singola immagine. Codice: https://github.com/Zhangyr2022/MoRe4D.
English
Generating interactive and dynamic 4D scenes from a single static image remains a core challenge. Most existing generate-then-reconstruct and reconstruct-then-generate methods decouple geometry from motion, causing spatiotemporal inconsistencies and poor generalization. To address these, we extend the reconstruct-then-generate framework to jointly perform Motion generation and geometric Reconstruction for 4D Synthesis (MoRe4D). We first introduce TrajScene-60K, a large-scale dataset of 60,000 video samples with dense point trajectories, addressing the scarcity of high-quality 4D scene data. Based on this, we propose a diffusion-based 4D Scene Trajectory Generator (4D-STraG) to jointly generate geometrically consistent and motion-plausible 4D point trajectories. To leverage single-view priors, we design a depth-guided motion normalization strategy and a motion-aware module for effective geometry and dynamics integration. We then propose a 4D View Synthesis Module (4D-ViSM) to render videos with arbitrary camera trajectories from 4D point track representations. Experiments show that MoRe4D generates high-quality 4D scenes with multi-view consistency and rich dynamic details from a single image. Code: https://github.com/Zhangyr2022/MoRe4D.