ConsistentID: マルチモーダルな細粒度アイデンティティ保存を実現するポートレート生成
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
著者: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
要旨
拡散モデルに基づく技術は、特にパーソナライズされた顔生成の分野で大きな進歩を遂げてきました。しかし、既存の手法では、顔領域に対するきめ細かい制御が不十分であることや、複雑な顔の詳細と全体の顔を十分に考慮したID保存戦略が欠如していることから、高忠実度で詳細なID一貫性を実現する上で課題に直面しています。これらの制限に対処するため、我々はConsistentIDを提案します。これは、単一の参照画像を用いて、きめ細かいマルチモーダルな顔プロンプトの下で多様なID保存を実現する革新的な手法です。ConsistentIDは、顔の特徴、対応する顔の説明、および全体の顔の文脈を組み合わせて顔の詳細の精度を高めるマルチモーダル顔プロンプトジェネレータと、顔領域におけるID一貫性を維持するために顔の注意局在化戦略を通じて最適化されたID保存ネットワークの2つの主要コンポーネントで構成されています。これらのコンポーネントは、顔領域からのきめ細かいマルチモーダルなID情報を導入することで、ID保存の精度を大幅に向上させます。ConsistentIDのトレーニングを容易にするため、我々は50万枚以上の顔画像を含むきめ細かいポートレートデータセットFGIDを提供します。これは、既存の公開顔データセットよりも多様性と包括性に優れています。実験結果は、我々のConsistentIDがMyStyleデータセットにおいて、既存の手法を凌ぐ精度と多様性を実現し、パーソナライズされた顔生成において卓越した性能を発揮することを実証しています。さらに、ConsistentIDはより多くのマルチモーダルなID情報を導入しながらも、生成時の高速な推論速度を維持しています。
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.Summary
AI-Generated Summary