TEDRA : Édition basée sur le texte d'acteurs dynamiques et photoréalistes
TEDRA: Text-based Editing of Dynamic and Photoreal Actors
August 28, 2024
Auteurs: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI
Résumé
Au cours des dernières années, des progrès significatifs ont été réalisés dans la création d'avatars 3D photoréalistes et conduisables uniquement à partir de vidéos de vrais humains. Cependant, un défi central persistant est l'édition fine et conviviale des styles vestimentaires au moyen de descriptions textuelles. À cette fin, nous présentons TEDRA, la première méthode permettant des modifications basées sur du texte d'un avatar, qui maintient la fidélité élevée de l'avatar, la cohérence spatio-temporelle, ainsi que la dynamique, et permet le contrôle de la pose squelettique et de la vue. Nous commençons par entraîner un modèle pour créer une réplique numérique contrôlable et haute fidélité de l'acteur réel. Ensuite, nous personnalisons un modèle de diffusion générative pré-entraîné en le peaufinant sur diverses images du personnage réel capturées sous différents angles de caméra, garantissant que la représentation numérique capture fidèlement la dynamique et les mouvements de la personne réelle. Ce processus en deux étapes pose les bases de notre approche de l'édition dynamique d'avatars humains. En utilisant ce modèle de diffusion personnalisé, nous modifions l'avatar dynamique en fonction d'une instruction textuelle fournie en utilisant notre Échantillonnage de Distillation de Score Aligné Normal Personnalisé (PNA-SDS) dans un cadre de guidage basé sur le modèle. De plus, nous proposons une stratégie d'annulation des étapes temporelles pour garantir des modifications de haute qualité. Nos résultats démontrent une nette amélioration par rapport aux travaux antérieurs en termes de fonctionnalité et de qualité visuelle.
English
Over the past years, significant progress has been made in creating
photorealistic and drivable 3D avatars solely from videos of real humans.
However, a core remaining challenge is the fine-grained and user-friendly
editing of clothing styles by means of textual descriptions. To this end, we
present TEDRA, the first method allowing text-based edits of an avatar, which
maintains the avatar's high fidelity, space-time coherency, as well as
dynamics, and enables skeletal pose and view control. We begin by training a
model to create a controllable and high-fidelity digital replica of the real
actor. Next, we personalize a pretrained generative diffusion model by
fine-tuning it on various frames of the real character captured from different
camera angles, ensuring the digital representation faithfully captures the
dynamics and movements of the real person. This two-stage process lays the
foundation for our approach to dynamic human avatar editing. Utilizing this
personalized diffusion model, we modify the dynamic avatar based on a provided
text prompt using our Personalized Normal Aligned Score Distillation Sampling
(PNA-SDS) within a model-based guidance framework. Additionally, we propose a
time step annealing strategy to ensure high-quality edits. Our results
demonstrate a clear improvement over prior work in functionality and visual
quality.Summary
AI-Generated Summary