TEDRA: Modifica basata su testo di attori dinamici e fotorealistici
TEDRA: Text-based Editing of Dynamic and Photoreal Actors
August 28, 2024
Autori: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI
Abstract
Negli ultimi anni sono stati compiuti significativi progressi nella creazione di avatar 3D fotorealistici e guidabili esclusivamente da video di esseri umani reali. Tuttavia, una sfida fondamentale rimanente è la modifica dettagliata e user-friendly degli stili di abbigliamento tramite descrizioni testuali. A questo scopo, presentiamo TEDRA, il primo metodo che consente modifiche basate su testo di un avatar, mantenendo l'alta fedeltà dell'avatar, la coerenza spazio-temporale, nonché la dinamica, e consentendo il controllo della postura scheletrica e della visuale. Iniziamo addestrando un modello per creare una replica digitale controllabile e ad alta fedeltà dell'attore reale. Successivamente, personalizziamo un modello generativo di diffusione preaddestrato affinandolo su vari frame del personaggio reale catturato da diverse angolazioni della telecamera, garantendo che la rappresentazione digitale catturi fedelmente la dinamica e i movimenti della persona reale. Questo processo a due fasi getta le basi per il nostro approccio alla modifica dinamica dell'avatar umano. Utilizzando questo modello di diffusione personalizzato, modifichiamo l'avatar dinamico in base a un prompt di testo fornito utilizzando il nostro campionamento di distillazione del punteggio allineato normale personalizzato (PNA-SDS) all'interno di un framework di guida basato sul modello. Inoltre, proponiamo una strategia di raffreddamento del passo temporale per garantire modifiche di alta qualità. I nostri risultati dimostrano un chiaro miglioramento rispetto ai lavori precedenti in termini di funzionalità e qualità visiva.
English
Over the past years, significant progress has been made in creating
photorealistic and drivable 3D avatars solely from videos of real humans.
However, a core remaining challenge is the fine-grained and user-friendly
editing of clothing styles by means of textual descriptions. To this end, we
present TEDRA, the first method allowing text-based edits of an avatar, which
maintains the avatar's high fidelity, space-time coherency, as well as
dynamics, and enables skeletal pose and view control. We begin by training a
model to create a controllable and high-fidelity digital replica of the real
actor. Next, we personalize a pretrained generative diffusion model by
fine-tuning it on various frames of the real character captured from different
camera angles, ensuring the digital representation faithfully captures the
dynamics and movements of the real person. This two-stage process lays the
foundation for our approach to dynamic human avatar editing. Utilizing this
personalized diffusion model, we modify the dynamic avatar based on a provided
text prompt using our Personalized Normal Aligned Score Distillation Sampling
(PNA-SDS) within a model-based guidance framework. Additionally, we propose a
time step annealing strategy to ensure high-quality edits. Our results
demonstrate a clear improvement over prior work in functionality and visual
quality.