ChatPaper.aiChatPaper

TEDRA: Edição baseada em texto de atores dinâmicos e fotorrealistas

TEDRA: Text-based Editing of Dynamic and Photoreal Actors

August 28, 2024
Autores: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI

Resumo

Nos últimos anos, foram feitos progressos significativos na criação de avatares 3D fotorrealistas e dirigíveis exclusivamente a partir de vídeos de humanos reais. No entanto, um desafio central que permanece é a edição detalhada e amigável de estilos de roupas por meio de descrições textuais. Para isso, apresentamos o TEDRA, o primeiro método que permite edições baseadas em texto de um avatar, mantendo a alta fidelidade do avatar, coerência espaço-temporal, bem como dinâmicas, e possibilitando controle de postura esquelética e visual. Começamos treinando um modelo para criar uma réplica digital controlável e de alta fidelidade do ator real. Em seguida, personalizamos um modelo de difusão generativa pré-treinado ajustando-o em vários quadros do personagem real capturados de diferentes ângulos de câmera, garantindo que a representação digital capture fielmente a dinâmica e movimentos da pessoa real. Esse processo em duas etapas estabelece a base para nossa abordagem de edição dinâmica de avatar humano. Utilizando esse modelo de difusão personalizado, modificamos o avatar dinâmico com base em uma sugestão de texto fornecida usando nossa Amostragem de Destilação de Pontuação Alinhada Normal Personalizada (PNA-SDS) dentro de um framework de orientação baseado em modelo. Além disso, propomos uma estratégia de anelamento de passo de tempo para garantir edições de alta qualidade. Nossos resultados demonstram uma clara melhoria em relação ao trabalho anterior em funcionalidade e qualidade visual.
English
Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar's high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.

Summary

AI-Generated Summary

PDF42November 16, 2024