ChatPaper.aiChatPaper

Generatief Renderen: Bestuurbare 4D-Gestuurde Videogeneratie met 2D Diffusiemodellen

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

December 3, 2023
Auteurs: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI

Samenvatting

Traditionele tools voor 3D-contentcreatie stellen gebruikers in staat om hun verbeelding tot leven te brengen door hen directe controle te geven over de geometrie, het uiterlijk, de beweging en het camerapad van een scène. Het maken van computergegenereerde video's is echter een tijdrovend handmatig proces, dat geautomatiseerd kan worden door opkomende tekst-naar-video-diffusiemodellen. Ondanks hun grote potentie zijn videodiffusiemodellen moeilijk te controleren, wat het voor een gebruiker belemmert om hun eigen creativiteit toe te passen in plaats van deze te versterken. Om deze uitdaging aan te pakken, presenteren we een nieuwe aanpak die de bestuurbaarheid van dynamische 3D-meshes combineert met de expressiviteit en bewerkbaarheid van opkomende diffusiemodellen. Hiervoor neemt onze aanpak een geanimeerde, low-fidelity gerenderde mesh als invoer en injecteert de grondwaarheidscorrespondentie-informatie die is verkregen uit de dynamische mesh in verschillende fasen van een vooraf getraind tekst-naar-beeldgeneratiemodel om hoogwaardige en temporeel consistente frames te produceren. We demonstreren onze aanpak aan de hand van verschillende voorbeelden waarbij beweging kan worden verkregen door geanimeerde gerigde assets of door het camerapad te wijzigen.
English
Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.
PDF112December 15, 2024