ShapeGen4D: Verso la Generazione di Forme 4D di Alta Qualità a Partire da Video
ShapeGen4D: Towards High Quality 4D Shape Generation from Videos
October 7, 2025
Autori: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI
Abstract
La generazione di forme 4D condizionata da video mira a ricostruire la geometria 3D variabile nel tempo e l'aspetto coerente con la visualizzazione direttamente da un video di input. In questo lavoro, introduciamo un framework nativo per la generazione di forme 4D da video che sintetizza una singola rappresentazione 3D dinamica end-to-end a partire dal video. Il nostro framework introduce tre componenti chiave basate su modelli 3D pre-addestrati su larga scala: (i) un'attenzione temporale che condiziona la generazione su tutti i fotogrammi producendo una rappresentazione dinamica indicizzata nel tempo; (ii) un campionamento di punti consapevole del tempo e un ancoraggio latente 4D che promuovono una geometria e una texture temporalmente coerenti; e (iii) la condivisione del rumore tra i fotogrammi per migliorare la stabilità temporale. Il nostro metodo cattura accuratamente il movimento non rigido, i cambiamenti di volume e persino le transizioni topologiche senza ottimizzazione per fotogramma. Su una vasta gamma di video in contesti reali, il nostro metodo migliora la robustezza e la fedeltà percettiva e riduce le modalità di fallimento rispetto ai metodi di riferimento.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D
geometry and view-consistent appearance directly from an input video. In this
work, we introduce a native video-to-4D shape generation framework that
synthesizes a single dynamic 3D representation end-to-end from the video. Our
framework introduces three key components based on large-scale pre-trained 3D
models: (i) a temporal attention that conditions generation on all frames while
producing a time-indexed dynamic representation; (ii) a time-aware point
sampling and 4D latent anchoring that promote temporally consistent geometry
and texture; and (iii) noise sharing across frames to enhance temporal
stability. Our method accurately captures non-rigid motion, volume changes, and
even topological transitions without per-frame optimization. Across diverse
in-the-wild videos, our method improves robustness and perceptual fidelity and
reduces failure modes compared with the baselines.