TEDRA: Edición basada en texto de actores dinámicos y fotorrealistas
TEDRA: Text-based Editing of Dynamic and Photoreal Actors
August 28, 2024
Autores: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI
Resumen
En los últimos años, se ha logrado un progreso significativo en la creación de avatares 3D fotorrealistas y conducibles únicamente a partir de videos de humanos reales. Sin embargo, un desafío central que persiste es la edición detallada y amigable de estilos de vestimenta mediante descripciones textuales. Con este fin, presentamos TEDRA, el primer método que permite ediciones basadas en texto de un avatar, manteniendo la alta fidelidad del avatar, coherencia espacio-temporal, así como dinámicas, y permitiendo el control de postura esquelética y vista. Comenzamos entrenando un modelo para crear una réplica digital controlable y de alta fidelidad del actor real. A continuación, personalizamos un modelo generativo de difusión preentrenado ajustándolo en varios fotogramas del personaje real capturado desde diferentes ángulos de cámara, asegurando que la representación digital capture fielmente la dinámica y movimientos de la persona real. Este proceso de dos etapas sienta las bases para nuestro enfoque de edición dinámica de avatares humanos. Utilizando este modelo de difusión personalizado, modificamos el avatar dinámico basándonos en una indicación de texto proporcionada mediante nuestro Muestreo de Destilación de Puntajes Alineados Normalmente Personalizados (PNA-SDS) dentro de un marco de orientación basado en modelos. Además, proponemos una estrategia de templado de pasos de tiempo para garantizar ediciones de alta calidad. Nuestros resultados demuestran una clara mejora respecto a trabajos anteriores en funcionalidad y calidad visual.
English
Over the past years, significant progress has been made in creating
photorealistic and drivable 3D avatars solely from videos of real humans.
However, a core remaining challenge is the fine-grained and user-friendly
editing of clothing styles by means of textual descriptions. To this end, we
present TEDRA, the first method allowing text-based edits of an avatar, which
maintains the avatar's high fidelity, space-time coherency, as well as
dynamics, and enables skeletal pose and view control. We begin by training a
model to create a controllable and high-fidelity digital replica of the real
actor. Next, we personalize a pretrained generative diffusion model by
fine-tuning it on various frames of the real character captured from different
camera angles, ensuring the digital representation faithfully captures the
dynamics and movements of the real person. This two-stage process lays the
foundation for our approach to dynamic human avatar editing. Utilizing this
personalized diffusion model, we modify the dynamic avatar based on a provided
text prompt using our Personalized Normal Aligned Score Distillation Sampling
(PNA-SDS) within a model-based guidance framework. Additionally, we propose a
time step annealing strategy to ensure high-quality edits. Our results
demonstrate a clear improvement over prior work in functionality and visual
quality.Summary
AI-Generated Summary