ShapeGen4D: Hacia la Generación de Formas 4D de Alta Calidad a partir de Vídeos
ShapeGen4D: Towards High Quality 4D Shape Generation from Videos
October 7, 2025
Autores: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI
Resumen
La generación de formas 4D condicionada por video tiene como objetivo recuperar la geometría 3D variable en el tiempo y la apariencia consistente con la vista directamente a partir de un video de entrada. En este trabajo, presentamos un marco nativo de generación de video a formas 4D que sintetiza una única representación dinámica 3D de extremo a extremo a partir del video. Nuestro marco introduce tres componentes clave basados en modelos 3D preentrenados a gran escala: (i) una atención temporal que condiciona la generación en todos los fotogramas mientras produce una representación dinámica indexada en el tiempo; (ii) un muestreo de puntos consciente del tiempo y un anclaje latente 4D que promueven una geometría y textura temporalmente consistentes; y (iii) el compartimiento de ruido entre fotogramas para mejorar la estabilidad temporal. Nuestro método captura con precisión el movimiento no rígido, los cambios de volumen e incluso las transiciones topológicas sin necesidad de optimización por fotograma. En diversos videos del mundo real, nuestro método mejora la robustez y la fidelidad perceptual y reduce los modos de fallo en comparación con los métodos de referencia.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D
geometry and view-consistent appearance directly from an input video. In this
work, we introduce a native video-to-4D shape generation framework that
synthesizes a single dynamic 3D representation end-to-end from the video. Our
framework introduces three key components based on large-scale pre-trained 3D
models: (i) a temporal attention that conditions generation on all frames while
producing a time-indexed dynamic representation; (ii) a time-aware point
sampling and 4D latent anchoring that promote temporally consistent geometry
and texture; and (iii) noise sharing across frames to enhance temporal
stability. Our method accurately captures non-rigid motion, volume changes, and
even topological transitions without per-frame optimization. Across diverse
in-the-wild videos, our method improves robustness and perceptual fidelity and
reduces failure modes compared with the baselines.