ChatPaper.aiChatPaper

Gaußscher Variationsfeld-Diffusion für hochauflösende Video-zu-4D-Synthese

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

July 31, 2025
papers.authors: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
cs.AI

papers.abstract

In diesem Artikel stellen wir ein neuartiges Framework für die Video-zu-4D-Generierung vor, das hochwertige dynamische 3D-Inhalte aus einzelnen Videoeingaben erzeugt. Die direkte 4D-Diffusionsmodellierung ist aufgrund der aufwändigen Datenerstellung und der hochdimensionalen Natur der gemeinsamen Darstellung von 3D-Form, Erscheinungsbild und Bewegung äußerst anspruchsvoll. Wir adressieren diese Herausforderungen durch die Einführung eines Direct 4DMesh-to-GS Variation Field VAE, der kanonische Gaussian Splats (GS) und ihre zeitlichen Variationen direkt aus 3D-Animationsdaten kodiert, ohne eine pro-Instanz-Anpassung, und hochdimensionale Animationen in einen kompakten latenten Raum komprimiert. Aufbauend auf dieser effizienten Darstellung trainieren wir ein Gaussian Variation Field Diffusionsmodell mit einem zeitlich bewussten Diffusion Transformer, der auf Eingabevideos und kanonische GS konditioniert ist. Unser Modell, das auf sorgfältig kuratierten animierbaren 3D-Objekten aus dem Objaverse-Datensatz trainiert wurde, zeigt eine überlegene Generierungsqualität im Vergleich zu bestehenden Methoden. Es weist auch eine bemerkenswerte Generalisierungsfähigkeit für Videoeingaben aus der realen Welt auf, obwohl es ausschließlich auf synthetischen Daten trainiert wurde, und ebnet den Weg für die Erzeugung hochwertiger animierter 3D-Inhalte. Projektseite: https://gvfdiffusion.github.io/.
English
In this paper, we present a novel framework for video-to-4D generation that creates high-quality dynamic 3D content from single video inputs. Direct 4D diffusion modeling is extremely challenging due to costly data construction and the high-dimensional nature of jointly representing 3D shape, appearance, and motion. We address these challenges by introducing a Direct 4DMesh-to-GS Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and their temporal variations from 3D animation data without per-instance fitting, and compresses high-dimensional animations into a compact latent space. Building upon this efficient representation, we train a Gaussian Variation Field diffusion model with temporal-aware Diffusion Transformer conditioned on input videos and canonical GS. Trained on carefully-curated animatable 3D objects from the Objaverse dataset, our model demonstrates superior generation quality compared to existing methods. It also exhibits remarkable generalization to in-the-wild video inputs despite being trained exclusively on synthetic data, paving the way for generating high-quality animated 3D content. Project page: https://gvfdiffusion.github.io/.
PDF162August 7, 2025