Generatives Rendering: Steuerbare 4D-geführte Videogenerierung mit 2D-Diffusionsmodellen
Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models
December 3, 2023
Autoren: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI
Zusammenfassung
Traditionelle 3D-Content-Erstellungstools ermöglichen es Nutzern, ihre Vorstellungen zum Leben zu erwecken, indem sie direkte Kontrolle über die Geometrie, das Erscheinungsbild, die Bewegung und den Kamerapfad einer Szene bieten. Die Erstellung computergenerierter Videos ist jedoch ein mühsamer manueller Prozess, der durch aufkommende Text-zu-Video-Diffusionsmodelle automatisiert werden kann. Trotz ihres großen Potenzials sind Video-Diffusionsmodelle schwer zu kontrollieren, was es Nutzern erschwert, ihre eigene Kreativität anzuwenden, anstatt sie zu verstärken. Um diese Herausforderung zu bewältigen, präsentieren wir einen neuartigen Ansatz, der die Kontrollierbarkeit dynamischer 3D-Meshes mit der Ausdruckskraft und Bearbeitbarkeit aufkommender Diffusionsmodelle kombiniert. Zu diesem Zweck nimmt unser Ansatz ein animiertes, niedrig aufgelöstes gerendertes Mesh als Eingabe und injiziert die aus dem dynamischen Mesh gewonnenen Ground-Truth-Korrespondenzinformationen in verschiedene Stufen eines vortrainierten Text-zu-Bild-Generierungsmodells, um hochwertige und zeitlich konsistente Frames zu erzeugen. Wir demonstrieren unseren Ansatz anhand verschiedener Beispiele, in denen Bewegung durch die Animation riggter Assets oder die Änderung des Kamerapfads erzielt werden kann.
English
Traditional 3D content creation tools empower users to bring their
imagination to life by giving them direct control over a scene's geometry,
appearance, motion, and camera path. Creating computer-generated videos,
however, is a tedious manual process, which can be automated by emerging
text-to-video diffusion models. Despite great promise, video diffusion models
are difficult to control, hindering a user to apply their own creativity rather
than amplifying it. To address this challenge, we present a novel approach that
combines the controllability of dynamic 3D meshes with the expressivity and
editability of emerging diffusion models. For this purpose, our approach takes
an animated, low-fidelity rendered mesh as input and injects the ground truth
correspondence information obtained from the dynamic mesh into various stages
of a pre-trained text-to-image generation model to output high-quality and
temporally consistent frames. We demonstrate our approach on various examples
where motion can be obtained by animating rigged assets or changing the camera
path.