Rendering Generativo: Generazione Controllata di Video Guidata da 4D con Modelli di Diffusione 2D

Abstract

I tradizionali strumenti di creazione di contenuti 3D consentono agli utenti di dare vita alla propria immaginazione fornendo loro un controllo diretto sulla geometria, l'aspetto, il movimento e il percorso della telecamera di una scena. Tuttavia, la creazione di video generati al computer è un processo manuale tedioso, che può essere automatizzato dai modelli di diffusione testo-video emergenti. Nonostante le grandi promesse, i modelli di diffusione video sono difficili da controllare, ostacolando l'utente nell'applicare la propria creatività piuttosto che amplificarla. Per affrontare questa sfida, presentiamo un approccio innovativo che combina la controllabilità delle mesh 3D dinamiche con l'espressività e l'editabilità dei modelli di diffusione emergenti. A tal fine, il nostro approccio prende in input una mesh animata e renderizzata a bassa fedeltà e inietta le informazioni di corrispondenza della verità di base ottenute dalla mesh dinamica in varie fasi di un modello pre-addestrato di generazione di immagini da testo, per produrre fotogrammi di alta qualità e temporalmente coerenti. Dimostriamo il nostro approccio su vari esempi in cui il movimento può essere ottenuto animando asset riggati o modificando il percorso della telecamera.

English

Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.

Rendering Generativo: Generazione Controllata di Video Guidata da 4D con Modelli di Diffusione 2D

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

Abstract

Support