4Real: Auf dem Weg zur fotorealistischen 4D-Szenengenerierung mittels Video-Diffusionsmodellen
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
June 11, 2024
Autoren: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
Zusammenfassung
Bestehende Methoden zur dynamischen Szenengenerierung stützen sich hauptsächlich auf die Extraktion von Wissen aus vorab trainierten 3D-generativen Modellen, die in der Regel auf synthetischen Objektdatensätzen feinabgestimmt sind. Als Ergebnis sind die generierten Szenen oft objektorientiert und weisen einen Mangel an fotorealistischer Darstellung auf. Um diese Einschränkungen zu überwinden, stellen wir eine neuartige Pipeline vor, die für die fotorealistische Text-zu-4D-Szenengenerierung konzipiert ist, wobei die Abhängigkeit von Multi-View-generativen Modellen verworfen wird und stattdessen vollständig auf Video-generative Modelle zurückgegriffen wird, die auf vielfältigen realen Datensätzen trainiert sind. Unser Ansatz beginnt mit der Generierung eines Referenzvideos mithilfe des Video-Generierungsmodells. Anschließend erlernen wir die kanonische 3D-Repräsentation des Videos unter Verwendung eines Freeze-Time-Videos, das sorgfältig aus dem Referenzvideo generiert wird. Um Inkonsistenzen im Freeze-Time-Video zu bewältigen, erlernen wir gemeinsam eine pro Frame-Verformung, um diese Unvollkommenheiten zu modellieren. Danach erlernen wir die zeitliche Verformung basierend auf der kanonischen Repräsentation, um dynamische Interaktionen im Referenzvideo einzufangen. Die Pipeline erleichtert die Generierung dynamischer Szenen mit verbesserter Fotorealismus und struktureller Integrität, die aus verschiedenen Perspektiven betrachtet werden können und somit einen neuen Standard in der 4D-Szenengenerierung setzen.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge
from pre-trained 3D generative models, which are typically fine-tuned on
synthetic object datasets. As a result, the generated scenes are often
object-centric and lack photorealism. To address these limitations, we
introduce a novel pipeline designed for photorealistic text-to-4D scene
generation, discarding the dependency on multi-view generative models and
instead fully utilizing video generative models trained on diverse real-world
datasets. Our method begins by generating a reference video using the video
generation model. We then learn the canonical 3D representation of the video
using a freeze-time video, delicately generated from the reference video. To
handle inconsistencies in the freeze-time video, we jointly learn a per-frame
deformation to model these imperfections. We then learn the temporal
deformation based on the canonical representation to capture dynamic
interactions in the reference video. The pipeline facilitates the generation of
dynamic scenes with enhanced photorealism and structural integrity, viewable
from multiple perspectives, thereby setting a new standard in 4D scene
generation.Summary
AI-Generated Summary