TEDRA: Редактирование текста динамических и фотореалистичных актеров.
TEDRA: Text-based Editing of Dynamic and Photoreal Actors
August 28, 2024
Авторы: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI
Аннотация
За последние годы был достигнут значительный прогресс в создании фотореалистичных и управляемых трехмерных аватаров исключительно на основе видеозаписей реальных людей. Однако одной из основных оставшихся задач является тонкая и удобная редакция стилей одежды с использованием текстовых описаний. В этой связи мы представляем TEDRA, первый метод, позволяющий редактировать аватар на основе текста, который сохраняет высокую достоверность аватара, пространственно-временную согласованность, а также динамику, и обеспечивает управление скелетной позой и видом. Мы начинаем с обучения модели создавать управляемую и высокодостоверную цифровую реплику реального актера. Затем мы персонализируем предварительно обученную генеративную модель диффузии, донастраивая ее на различных кадрах реального персонажа, снятых под разными углами камеры, чтобы цифровое представление точно передавало динамику и движения реального человека. Этот двухэтапный процесс заложил основу для нашего подхода к редактированию динамического человеческого аватара. Используя эту персонализированную модель диффузии, мы модифицируем динамический аватар на основе предоставленного текстового подсказывания с использованием нашего метода выборки сжатия персонализированных нормализованных оценок (PNA-SDS) в рамках модельно-ориентированной системы руководства. Кроме того, мы предлагаем стратегию отжига временного шага для обеспечения высококачественных редакций. Наши результаты демонстрируют явное улучшение по сравнению с предыдущими работами в функциональности и визуальном качестве.
English
Over the past years, significant progress has been made in creating
photorealistic and drivable 3D avatars solely from videos of real humans.
However, a core remaining challenge is the fine-grained and user-friendly
editing of clothing styles by means of textual descriptions. To this end, we
present TEDRA, the first method allowing text-based edits of an avatar, which
maintains the avatar's high fidelity, space-time coherency, as well as
dynamics, and enables skeletal pose and view control. We begin by training a
model to create a controllable and high-fidelity digital replica of the real
actor. Next, we personalize a pretrained generative diffusion model by
fine-tuning it on various frames of the real character captured from different
camera angles, ensuring the digital representation faithfully captures the
dynamics and movements of the real person. This two-stage process lays the
foundation for our approach to dynamic human avatar editing. Utilizing this
personalized diffusion model, we modify the dynamic avatar based on a provided
text prompt using our Personalized Normal Aligned Score Distillation Sampling
(PNA-SDS) within a model-based guidance framework. Additionally, we propose a
time step annealing strategy to ensure high-quality edits. Our results
demonstrate a clear improvement over prior work in functionality and visual
quality.Summary
AI-Generated Summary