ChatPaper.aiChatPaper

Renderização Generativa: Geração de Vídeo Controlada por Guia 4D com Modelos de Difusão 2D

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

December 3, 2023
Autores: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI

Resumo

As ferramentas tradicionais de criação de conteúdo 3D capacitam os usuários a dar vida à sua imaginação, oferecendo controle direto sobre a geometria, aparência, movimento e trajetória da câmera de uma cena. No entanto, a criação de vídeos gerados por computador é um processo manual tedioso, que pode ser automatizado por modelos emergentes de difusão de texto para vídeo. Apesar do grande potencial, os modelos de difusão de vídeo são difíceis de controlar, impedindo que o usuário aplique sua própria criatividade em vez de ampliá-la. Para enfrentar esse desafio, apresentamos uma abordagem inovadora que combina a controlabilidade de malhas 3D dinâmicas com a expressividade e editabilidade dos modelos emergentes de difusão. Para isso, nossa abordagem utiliza como entrada uma malha animada e renderizada com baixa fidelidade, injetando as informações de correspondência obtidas da malha dinâmica em várias etapas de um modelo pré-treinado de geração de imagem a partir de texto, para produzir quadros de alta qualidade e temporalmente consistentes. Demonstramos nossa abordagem em diversos exemplos onde o movimento pode ser obtido animando ativos rigados ou alterando a trajetória da câmera.
English
Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.
PDF112December 15, 2024