4Real: Naar Fotorealistische 4D Scènegeneratie via Video Diffusiemodellen
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
June 11, 2024
Auteurs: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
Samenvatting
Bestaande methoden voor het genereren van dynamische scènes zijn voornamelijk gebaseerd op het destilleren van kennis uit vooraf getrainde 3D-generatieve modellen, die doorgaans worden afgestemd op synthetische objectdatasets. Hierdoor zijn de gegenereerde scènes vaak objectgericht en missen ze fotorealisme. Om deze beperkingen aan te pakken, introduceren we een nieuwe pijplijn die is ontworpen voor fotorealistische tekst-naar-4D-scènegeneratie, waarbij de afhankelijkheid van multi-view-generatieve modellen wordt losgelaten en in plaats daarvan volledig gebruik wordt gemaakt van videogeneratieve modellen die zijn getraind op diverse real-world datasets. Onze methode begint met het genereren van een referentievideo met behulp van het videogeneratiemodel. Vervolgens leren we de canonieke 3D-representatie van de video met behulp van een freeze-time video, die zorgvuldig wordt gegenereerd uit de referentievideo. Om inconsistenties in de freeze-time video te hanteren, leren we gezamenlijk een per-frame vervorming om deze imperfecties te modelleren. Daarna leren we de temporele vervorming op basis van de canonieke representatie om dynamische interacties in de referentievideo vast te leggen. De pijplijn maakt het mogelijk om dynamische scènes te genereren met verbeterd fotorealisme en structurele integriteit, die vanuit meerdere perspectieven bekeken kunnen worden, waardoor een nieuwe standaard wordt gezet in 4D-scènegeneratie.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge
from pre-trained 3D generative models, which are typically fine-tuned on
synthetic object datasets. As a result, the generated scenes are often
object-centric and lack photorealism. To address these limitations, we
introduce a novel pipeline designed for photorealistic text-to-4D scene
generation, discarding the dependency on multi-view generative models and
instead fully utilizing video generative models trained on diverse real-world
datasets. Our method begins by generating a reference video using the video
generation model. We then learn the canonical 3D representation of the video
using a freeze-time video, delicately generated from the reference video. To
handle inconsistencies in the freeze-time video, we jointly learn a per-frame
deformation to model these imperfections. We then learn the temporal
deformation based on the canonical representation to capture dynamic
interactions in the reference video. The pipeline facilitates the generation of
dynamic scenes with enhanced photorealism and structural integrity, viewable
from multiple perspectives, thereby setting a new standard in 4D scene
generation.