ChatPaper.aiChatPaper

TEDRA: Textbasierte Bearbeitung von dynamischen und fotorealistischen Schauspielern

TEDRA: Text-based Editing of Dynamic and Photoreal Actors

August 28, 2024
Autoren: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI

Zusammenfassung

In den letzten Jahren wurden bedeutende Fortschritte bei der Erstellung fotorealistischer und steuerbarer 3D-Avatare ausschließlich aus Videos echter Menschen erzielt. Eine zentrale verbleibende Herausforderung besteht jedoch in der feinkörnigen und benutzerfreundlichen Bearbeitung von Kleidungsstilen anhand von Textbeschreibungen. Zu diesem Zweck präsentieren wir TEDRA, die erste Methode, die textbasierte Bearbeitungen eines Avatars ermöglicht, wobei die hohe Treue, die Raum-Zeit-Kohärenz sowie die Dynamik des Avatars beibehalten werden und die Steuerung der Skelett-Posen und Ansichten ermöglicht wird. Wir beginnen damit, ein Modell zu trainieren, um eine steuerbare und hochwertige digitale Nachbildung des realen Schauspielers zu erstellen. Anschließend personalisieren wir ein vortrainiertes generatives Diffusionsmodell, indem wir es durch Feinabstimmung an verschiedenen Frames des echten Charakters, die aus verschiedenen Kamerawinkeln aufgenommen wurden, anpassen, um sicherzustellen, dass die digitale Darstellung die Dynamik und Bewegungen der realen Person treu wiedergibt. Dieser zweistufige Prozess bildet die Grundlage für unseren Ansatz zur Bearbeitung dynamischer menschlicher Avatare. Unter Verwendung dieses personalisierten Diffusionsmodells modifizieren wir den dynamischen Avatar basierend auf einer bereitgestellten Textanweisung mithilfe unserer Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) innerhalb eines modellbasierten Leitfadenrahmens. Darüber hinaus schlagen wir eine Strategie zur Zeitschritt-Annealierung vor, um hochwertige Bearbeitungen sicherzustellen. Unsere Ergebnisse zeigen eine klare Verbesserung gegenüber früheren Arbeiten in Bezug auf Funktionalität und visuelle Qualität.
English
Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar's high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.

Summary

AI-Generated Summary

PDF42November 16, 2024