ChatPaper.aiChatPaper

GenCA: リアルで運転可能なコーデック・アバターのためのテキスト条件付き生成モデル

GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

August 24, 2024
著者: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI

要旨

写実的で操作可能な3Dアバターは、仮想現実(VR)、複合現実(MR)、テレプレゼンス、ゲーム、映画制作など、さまざまなアプリケーションにとって重要です。従来のアバター作成方法は、各アバターに対する時間のかかるスキャンと再構築プロセスを必要とするため、スケーラビリティが制限されています。さらに、これらの方法は新しいアイデンティティをサンプリングしたり既存のアイデンティティを変更したりする柔軟性を提供していません。一方、データから強力な事前知識を学習することで、生成モデルは従来の再構築方法に有望な代替手段を提供し、データ収集と処理の時間制約を緩和します。さらに、生成手法は再構築を超えた編集やスタイル設定などの下流アプリケーションを可能にします。それにもかかわらず、生成的3Dアバターに関する研究はまだ初期段階にあり、現在の方法には静的アバターの作成、写実性の欠如、顔の詳細不足、または制限されたドライバビリティなどの制限があります。これを解決するために、私たちは、テキスト条件付き生成モデルを提案します。これにより、多様なアイデンティティの写実的な顔のアバターを生成し、髪、目、口内部などのより完全な詳細を持ち、強力な非パラメトリック潜在表現空間を介してドライブできます。具体的には、潜在拡散モデルの生成および編集機能をアバター表現ドライブのための強力な事前モデルと統合しています。 私たちのモデルは、分布外の高品質なアバターを生成し制御することができます。また、アバターの編集や単発アバター再構築などの下流アプリケーションにおける潜在的な可能性を強調しています。
English
Photo-realistic and controllable 3D avatars are crucial for various applications such as virtual and mixed reality (VR/MR), telepresence, gaming, and film production. Traditional methods for avatar creation often involve time-consuming scanning and reconstruction processes for each avatar, which limits their scalability. Furthermore, these methods do not offer the flexibility to sample new identities or modify existing ones. On the other hand, by learning a strong prior from data, generative models provide a promising alternative to traditional reconstruction methods, easing the time constraints for both data capture and processing. Additionally, generative methods enable downstream applications beyond reconstruction, such as editing and stylization. Nonetheless, the research on generative 3D avatars is still in its infancy, and therefore current methods still have limitations such as creating static avatars, lacking photo-realism, having incomplete facial details, or having limited drivability. To address this, we propose a text-conditioned generative model that can generate photo-realistic facial avatars of diverse identities, with more complete details like hair, eyes and mouth interior, and which can be driven through a powerful non-parametric latent expression space. Specifically, we integrate the generative and editing capabilities of latent diffusion models with a strong prior model for avatar expression driving. Our model can generate and control high-fidelity avatars, even those out-of-distribution. We also highlight its potential for downstream applications, including avatar editing and single-shot avatar reconstruction.

Summary

AI-Generated Summary

PDF183November 16, 2024