TEDRA: 텍스트 기반 동적 및 사실적 배우 편집
TEDRA: Text-based Editing of Dynamic and Photoreal Actors
August 28, 2024
저자: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI
초록
지난 몇 년 동안 실제 인간의 비디오에서만으로도 사실적이고 운전 가능한 3D 아바타를 만드는 데 상당한 진전이 이루어졌습니다. 그러나 의상 스타일을 세밀하게 편집하고 사용자 친화적으로 표현하는 것은 여전히 중요한 과제입니다. 이를 위해 우리는 아바타의 텍스트 기반 편집을 허용하는 첫 번째 방법인 TEDRA를 제시합니다. 이 방법은 아바타의 고도한 충실도, 시간-공간 일관성, 그리고 다이내믹스를 유지하며 스켈레톤 포즈 및 시점 제어를 가능하게 합니다. 먼저, 우리는 모델을 훈련하여 실제 배우의 제어 가능하고 고도한 디지털 복제본을 만듭니다. 그런 다음, 우리는 미리 훈련된 생성 확산 모델을 다양한 카메라 각도에서 촬영된 실제 캐릭터의 여러 프레임으로 세밀하게 조정하여 디지털 표현이 실제 사람의 다이내믹스와 움직임을 충실하게 잡아냄으로써 개인화합니다. 이 두 단계 과정은 우리의 동적 인간 아바타 편집 방법의 기초를 마련합니다. 이 개인화된 확산 모델을 활용하여 우리는 모델 기반 가이드 프레임워크 내에서 제공된 텍스트 프롬프트를 사용하여 동적 아바타를 수정합니다. 또한 고품질 편집을 보장하기 위해 시간 단계 단열 전략을 제안합니다. 우리의 결과는 기능성과 시각적 품질에서 이전 작업에 비해 명확한 향상을 보여줍니다.
English
Over the past years, significant progress has been made in creating
photorealistic and drivable 3D avatars solely from videos of real humans.
However, a core remaining challenge is the fine-grained and user-friendly
editing of clothing styles by means of textual descriptions. To this end, we
present TEDRA, the first method allowing text-based edits of an avatar, which
maintains the avatar's high fidelity, space-time coherency, as well as
dynamics, and enables skeletal pose and view control. We begin by training a
model to create a controllable and high-fidelity digital replica of the real
actor. Next, we personalize a pretrained generative diffusion model by
fine-tuning it on various frames of the real character captured from different
camera angles, ensuring the digital representation faithfully captures the
dynamics and movements of the real person. This two-stage process lays the
foundation for our approach to dynamic human avatar editing. Utilizing this
personalized diffusion model, we modify the dynamic avatar based on a provided
text prompt using our Personalized Normal Aligned Score Distillation Sampling
(PNA-SDS) within a model-based guidance framework. Additionally, we propose a
time step annealing strategy to ensure high-quality edits. Our results
demonstrate a clear improvement over prior work in functionality and visual
quality.Summary
AI-Generated Summary