TEDRA: ダイナミックでフォトリアルなアクターのテキストベース編集
TEDRA: Text-based Editing of Dynamic and Photoreal Actors
August 28, 2024
著者: Basavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
cs.AI
要旨
過去数年間、実写映像からのみならず、写実的で操作可能な3Dアバターの作成において、著しい進歩がなされてきました。しかしながら、服装スタイルの細かな編集がテキスト記述によってユーザーフレンドリーに行えるようにするという課題が依然として残っています。このために、我々はTEDRAを提案します。これは、アバターの高い忠実度、時空の一貫性、ダイナミクスを維持し、骨格ポーズと視点制御を可能にする初のテキストベースの編集手法です。まず、モデルを訓練して、実際の俳優の操作可能で高忠実度なデジタルレプリカを作成します。次に、異なるカメラアングルから捉えられた実際のキャラクターの複数のフレームで事前に学習された生成拡散モデルを微調整し、デジタル表現が実際の人物のダイナミクスと動きを忠実に捉えるようにします。この2段階のプロセスは、動的な人間アバター編集へのアプローチの基盤を築きます。このパーソナライズされた拡散モデルを活用して、提供されたテキストプロンプトに基づいて動的アバターを修正し、モデルベースのガイダンスフレームワーク内で私たちのパーソナライズされたノーマルアラインドスコア蒸留サンプリング(PNA-SDS)を使用します。さらに、高品質な編集を確保するためのタイムステップアニーリング戦略を提案します。我々の結果は、機能性と視覚的品質において従来の研究に明確な改善を示しています。
English
Over the past years, significant progress has been made in creating
photorealistic and drivable 3D avatars solely from videos of real humans.
However, a core remaining challenge is the fine-grained and user-friendly
editing of clothing styles by means of textual descriptions. To this end, we
present TEDRA, the first method allowing text-based edits of an avatar, which
maintains the avatar's high fidelity, space-time coherency, as well as
dynamics, and enables skeletal pose and view control. We begin by training a
model to create a controllable and high-fidelity digital replica of the real
actor. Next, we personalize a pretrained generative diffusion model by
fine-tuning it on various frames of the real character captured from different
camera angles, ensuring the digital representation faithfully captures the
dynamics and movements of the real person. This two-stage process lays the
foundation for our approach to dynamic human avatar editing. Utilizing this
personalized diffusion model, we modify the dynamic avatar based on a provided
text prompt using our Personalized Normal Aligned Score Distillation Sampling
(PNA-SDS) within a model-based guidance framework. Additionally, we propose a
time step annealing strategy to ensure high-quality edits. Our results
demonstrate a clear improvement over prior work in functionality and visual
quality.Summary
AI-Generated Summary