ChatPaper.aiChatPaper

TEDRA: Tekstgebaseerde Bewerking van Dynamische en Fotorealistische Acteurs

TEDRA: Text-based Editing of Dynamic and Photoreal Actors

August 28, 2024
Auteurs: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI

Samenvatting

De afgelopen jaren is aanzienlijke vooruitgang geboekt bij het creëren van fotorealistische en bestuurbare 3D-avatars uitsluitend op basis van video's van echte mensen. Een kernuitdaging die echter nog steeds resteert, is het fijnmazige en gebruiksvriendelijke bewerken van kledingstijlen door middel van tekstuele beschrijvingen. Hiertoe presenteren wij TEDRA, de eerste methode die tekstgebaseerde aanpassingen van een avatar mogelijk maakt, waarbij de hoge kwaliteit, ruimte-tijd coherentie en dynamiek van de avatar behouden blijven, en waarbij controle over skeletpose en camerahoek mogelijk is. We beginnen met het trainen van een model om een bestuurbare en hoogwaardige digitale replica van de echte acteur te creëren. Vervolgens personaliseren we een vooraf getraind generatief diffusiemodel door het af te stemmen op verschillende frames van het echte personage, vastgelegd vanuit verschillende camerahoeken, om ervoor te zorgen dat de digitale representatie de dynamiek en bewegingen van de echte persoon nauwkeurig weergeeft. Dit tweestapsproces vormt de basis voor onze aanpak van dynamische avatar-bewerking. Met behulp van dit gepersonaliseerde diffusiemodel passen we de dynamische avatar aan op basis van een gegeven tekstprompt, waarbij we onze Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) gebruiken binnen een modelgebaseerd begeleidingskader. Daarnaast stellen we een tijdstap-annealingstrategie voor om hoogwaardige bewerkingen te garanderen. Onze resultaten tonen een duidelijke verbetering ten opzichte van eerder werk in functionaliteit en visuele kwaliteit.
English
Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar's high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.

Summary

AI-Generated Summary

PDF42November 16, 2024