ChatPaper.aiChatPaper

ShapeGen4D: Auf dem Weg zur hochwertigen 4D-Formgenerierung aus Videos

ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

October 7, 2025
papers.authors: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI

papers.abstract

Die videobasierte 4D-Formgenerierung zielt darauf ab, zeitlich variierende 3D-Geometrie und sichtkonsistente Oberflächeneigenschaften direkt aus einem Eingabevideo zu rekonstruieren. In dieser Arbeit stellen wir ein natives Video-zu-4D-Formgenerierungsframework vor, das eine einzige dynamische 3D-Darstellung end-to-end aus dem Video synthetisiert. Unser Framework führt drei Schlüsselkomponenten ein, die auf großskaligen vortrainierten 3D-Modellen basieren: (i) eine temporale Aufmerksamkeitsmechanik, die die Generierung auf allen Bildern des Videos konditioniert und gleichzeitig eine zeitindizierte dynamische Darstellung erzeugt; (ii) eine zeitbewusste Punktabtastung und 4D-latente Verankerung, die zeitlich konsistente Geometrie und Textur fördern; und (iii) eine Rauschteilung über die Bilder hinweg, um die zeitliche Stabilität zu verbessern. Unsere Methode erfasst präzise nicht-rigide Bewegungen, Volumenänderungen und sogar topologische Übergänge ohne eine Optimierung pro Bild. In verschiedenen realen Videos verbessert unsere Methode die Robustheit und wahrgenommene Qualität und reduziert Fehlermodi im Vergleich zu den Baselines.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D geometry and view-consistent appearance directly from an input video. In this work, we introduce a native video-to-4D shape generation framework that synthesizes a single dynamic 3D representation end-to-end from the video. Our framework introduces three key components based on large-scale pre-trained 3D models: (i) a temporal attention that conditions generation on all frames while producing a time-indexed dynamic representation; (ii) a time-aware point sampling and 4D latent anchoring that promote temporally consistent geometry and texture; and (iii) noise sharing across frames to enhance temporal stability. Our method accurately captures non-rigid motion, volume changes, and even topological transitions without per-frame optimization. Across diverse in-the-wild videos, our method improves robustness and perceptual fidelity and reduces failure modes compared with the baselines.
PDF132October 8, 2025