ShapeGen4D : Vers la génération de formes 4D de haute qualité à partir de vidéos
ShapeGen4D: Towards High Quality 4D Shape Generation from Videos
October 7, 2025
papers.authors: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI
papers.abstract
La génération de formes 4D conditionnée par vidéo vise à reconstruire la géométrie 3D variant dans le temps et l'apparence cohérente en vue directement à partir d'une vidéo d'entrée. Dans ce travail, nous introduisons un cadre natif de génération vidéo-vers-4D qui synthétise une représentation dynamique 3D unique de bout en bout à partir de la vidéo. Notre cadre intègre trois composants clés basés sur des modèles 3D pré-entraînés à grande échelle : (i) une attention temporelle qui conditionne la génération sur toutes les images tout en produisant une représentation dynamique indexée dans le temps ; (ii) un échantillonnage de points conscient du temps et un ancrage latent 4D qui favorisent une géométrie et une texture temporellement cohérentes ; et (iii) un partage de bruit entre les images pour améliorer la stabilité temporelle. Notre méthode capture avec précision les mouvements non rigides, les changements de volume, et même les transitions topologiques sans optimisation par image. Sur diverses vidéos en conditions réelles, notre méthode améliore la robustesse et la fidélité perceptuelle tout en réduisant les modes d'échec par rapport aux méthodes de référence.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D
geometry and view-consistent appearance directly from an input video. In this
work, we introduce a native video-to-4D shape generation framework that
synthesizes a single dynamic 3D representation end-to-end from the video. Our
framework introduces three key components based on large-scale pre-trained 3D
models: (i) a temporal attention that conditions generation on all frames while
producing a time-indexed dynamic representation; (ii) a time-aware point
sampling and 4D latent anchoring that promote temporally consistent geometry
and texture; and (iii) noise sharing across frames to enhance temporal
stability. Our method accurately captures non-rigid motion, volume changes, and
even topological transitions without per-frame optimization. Across diverse
in-the-wild videos, our method improves robustness and perceptual fidelity and
reduces failure modes compared with the baselines.