ChatPaper.aiChatPaper

ShapeGen4D : Vers la génération de formes 4D de haute qualité à partir de vidéos

ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

October 7, 2025
papers.authors: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI

papers.abstract

La génération de formes 4D conditionnée par vidéo vise à reconstruire la géométrie 3D variant dans le temps et l'apparence cohérente en vue directement à partir d'une vidéo d'entrée. Dans ce travail, nous introduisons un cadre natif de génération vidéo-vers-4D qui synthétise une représentation dynamique 3D unique de bout en bout à partir de la vidéo. Notre cadre intègre trois composants clés basés sur des modèles 3D pré-entraînés à grande échelle : (i) une attention temporelle qui conditionne la génération sur toutes les images tout en produisant une représentation dynamique indexée dans le temps ; (ii) un échantillonnage de points conscient du temps et un ancrage latent 4D qui favorisent une géométrie et une texture temporellement cohérentes ; et (iii) un partage de bruit entre les images pour améliorer la stabilité temporelle. Notre méthode capture avec précision les mouvements non rigides, les changements de volume, et même les transitions topologiques sans optimisation par image. Sur diverses vidéos en conditions réelles, notre méthode améliore la robustesse et la fidélité perceptuelle tout en réduisant les modes d'échec par rapport aux méthodes de référence.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D geometry and view-consistent appearance directly from an input video. In this work, we introduce a native video-to-4D shape generation framework that synthesizes a single dynamic 3D representation end-to-end from the video. Our framework introduces three key components based on large-scale pre-trained 3D models: (i) a temporal attention that conditions generation on all frames while producing a time-indexed dynamic representation; (ii) a time-aware point sampling and 4D latent anchoring that promote temporally consistent geometry and texture; and (iii) noise sharing across frames to enhance temporal stability. Our method accurately captures non-rigid motion, volume changes, and even topological transitions without per-frame optimization. Across diverse in-the-wild videos, our method improves robustness and perceptual fidelity and reduces failure modes compared with the baselines.
PDF132October 8, 2025