ChatPaper.aiChatPaper

Renderizado Generativo: Generación de Vídeo Guiada en 4D Controlable con Modelos de Difusión 2D

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

December 3, 2023
Autores: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI

Resumen

Las herramientas tradicionales de creación de contenido 3D permiten a los usuarios dar vida a su imaginación al otorgarles control directo sobre la geometría, apariencia, movimiento y trayectoria de la cámara de una escena. Sin embargo, la creación de videos generados por computadora es un proceso manual tedioso, que puede automatizarse mediante los emergentes modelos de difusión de texto a video. A pesar de su gran potencial, los modelos de difusión de video son difíciles de controlar, lo que limita la capacidad del usuario para aplicar su propia creatividad en lugar de amplificarla. Para abordar este desafío, presentamos un enfoque novedoso que combina la capacidad de control de las mallas dinámicas 3D con la expresividad y editabilidad de los modelos de difusión emergentes. Para ello, nuestro enfoque toma como entrada una malla animada y renderizada de baja fidelidad e inyecta la información de correspondencia obtenida de la malla dinámica en varias etapas de un modelo preentrenado de generación de imágenes a partir de texto, para producir fotogramas de alta calidad y temporalmente consistentes. Demostramos nuestro enfoque en varios ejemplos donde el movimiento puede obtenerse animando activos rigueados o modificando la trayectoria de la cámara.
English
Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.
PDF112December 15, 2024