IDAdapter: テキストから画像モデルのチューニング不要なパーソナライゼーションのための混合特徴量の学習
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models
March 20, 2024
著者: Siying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng
cs.AI
要旨
安定拡散モデルを活用したパーソナライズドポートレート生成は、ユーザーが特定のプロンプトに基づいて高精細でカスタマイズされたキャラクターアバターを作成するための強力かつ注目すべきツールとして登場している。しかし、既存のパーソナライゼーション手法は、テスト時の微調整、複数の入力画像の必要性、アイデンティティの低い保存率、生成結果の多様性の限界といった課題に直面している。これらの課題を克服するため、我々はIDAdapterを提案する。これは、単一の顔画像からパーソナライズされた画像生成において、多様性とアイデンティティの保存を向上させるチューニング不要のアプローチである。IDAdapterは、テキストと視覚的な注入、および顔のアイデンティティ損失を組み合わせることで、生成プロセスにパーソナライズされた概念を統合する。トレーニングフェーズでは、特定のアイデンティティの複数の参照画像から混合された特徴を取り入れ、アイデンティティに関連するコンテンツの詳細を豊かにし、モデルが以前の研究と比較してより多様なスタイル、表情、角度を持つ画像を生成するよう導く。広範な評価により、我々の手法が生成画像において多様性とアイデンティティの忠実度の両方を達成する有効性が実証された。
English
Leveraging Stable Diffusion for the generation of personalized portraits has
emerged as a powerful and noteworthy tool, enabling users to create
high-fidelity, custom character avatars based on their specific prompts.
However, existing personalization methods face challenges, including test-time
fine-tuning, the requirement of multiple input images, low preservation of
identity, and limited diversity in generated outcomes. To overcome these
challenges, we introduce IDAdapter, a tuning-free approach that enhances the
diversity and identity preservation in personalized image generation from a
single face image. IDAdapter integrates a personalized concept into the
generation process through a combination of textual and visual injections and a
face identity loss. During the training phase, we incorporate mixed features
from multiple reference images of a specific identity to enrich
identity-related content details, guiding the model to generate images with
more diverse styles, expressions, and angles compared to previous works.
Extensive evaluations demonstrate the effectiveness of our method, achieving
both diversity and identity fidelity in generated images.Summary
AI-Generated Summary