ChatPaper.aiChatPaper

4Real: Verso la Generazione Fotorealistica di Scene 4D tramite Modelli di Diffusione Video

4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

June 11, 2024
Autori: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI

Abstract

I metodi esistenti per la generazione dinamica di scene si basano principalmente sulla distillazione della conoscenza da modelli generativi 3D pre-addestrati, che vengono tipicamente perfezionati su dataset sintetici di oggetti. Di conseguenza, le scene generate sono spesso centrate sugli oggetti e mancano di fotorealismo. Per affrontare queste limitazioni, introduciamo una nuova pipeline progettata per la generazione fotorealistica di scene 4D da testo, eliminando la dipendenza da modelli generativi multi-vista e sfruttando invece appieno modelli generativi di video addestrati su diversi dataset del mondo reale. Il nostro metodo inizia generando un video di riferimento utilizzando il modello di generazione video. Successivamente, apprendiamo la rappresentazione 3D canonica del video utilizzando un video a tempo congelato, generato con cura dal video di riferimento. Per gestire le incongruenze nel video a tempo congelato, apprendiamo congiuntamente una deformazione per fotogramma per modellare queste imperfezioni. Apprendiamo quindi la deformazione temporale basata sulla rappresentazione canonica per catturare le interazioni dinamiche nel video di riferimento. La pipeline facilita la generazione di scene dinamiche con un fotorealismo e un'integrità strutturale migliorati, visualizzabili da molteplici prospettive, stabilendo così un nuovo standard nella generazione di scene 4D.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge from pre-trained 3D generative models, which are typically fine-tuned on synthetic object datasets. As a result, the generated scenes are often object-centric and lack photorealism. To address these limitations, we introduce a novel pipeline designed for photorealistic text-to-4D scene generation, discarding the dependency on multi-view generative models and instead fully utilizing video generative models trained on diverse real-world datasets. Our method begins by generating a reference video using the video generation model. We then learn the canonical 3D representation of the video using a freeze-time video, delicately generated from the reference video. To handle inconsistencies in the freeze-time video, we jointly learn a per-frame deformation to model these imperfections. We then learn the temporal deformation based on the canonical representation to capture dynamic interactions in the reference video. The pipeline facilitates the generation of dynamic scenes with enhanced photorealism and structural integrity, viewable from multiple perspectives, thereby setting a new standard in 4D scene generation.
PDF143February 8, 2026