4Real: Verso la Generazione Fotorealistica di Scene 4D tramite Modelli di Diffusione Video
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
June 11, 2024
Autori: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
Abstract
I metodi esistenti per la generazione dinamica di scene si basano principalmente sulla distillazione della conoscenza da modelli generativi 3D pre-addestrati, che vengono tipicamente perfezionati su dataset sintetici di oggetti. Di conseguenza, le scene generate sono spesso centrate sugli oggetti e mancano di fotorealismo. Per affrontare queste limitazioni, introduciamo una nuova pipeline progettata per la generazione fotorealistica di scene 4D da testo, eliminando la dipendenza da modelli generativi multi-vista e sfruttando invece appieno modelli generativi di video addestrati su diversi dataset del mondo reale. Il nostro metodo inizia generando un video di riferimento utilizzando il modello di generazione video. Successivamente, apprendiamo la rappresentazione 3D canonica del video utilizzando un video a tempo congelato, generato con cura dal video di riferimento. Per gestire le incongruenze nel video a tempo congelato, apprendiamo congiuntamente una deformazione per fotogramma per modellare queste imperfezioni. Apprendiamo quindi la deformazione temporale basata sulla rappresentazione canonica per catturare le interazioni dinamiche nel video di riferimento. La pipeline facilita la generazione di scene dinamiche con un fotorealismo e un'integrità strutturale migliorati, visualizzabili da molteplici prospettive, stabilendo così un nuovo standard nella generazione di scene 4D.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge
from pre-trained 3D generative models, which are typically fine-tuned on
synthetic object datasets. As a result, the generated scenes are often
object-centric and lack photorealism. To address these limitations, we
introduce a novel pipeline designed for photorealistic text-to-4D scene
generation, discarding the dependency on multi-view generative models and
instead fully utilizing video generative models trained on diverse real-world
datasets. Our method begins by generating a reference video using the video
generation model. We then learn the canonical 3D representation of the video
using a freeze-time video, delicately generated from the reference video. To
handle inconsistencies in the freeze-time video, we jointly learn a per-frame
deformation to model these imperfections. We then learn the temporal
deformation based on the canonical representation to capture dynamic
interactions in the reference video. The pipeline facilitates the generation of
dynamic scenes with enhanced photorealism and structural integrity, viewable
from multiple perspectives, thereby setting a new standard in 4D scene
generation.