ConsistentID : Génération de portraits avec préservation multimodale fine de l'identité
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
Auteurs: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
Résumé
Les technologies basées sur la diffusion ont réalisé des avancées significatives, notamment dans la génération de visages personnalisés et sur mesure. Cependant, les méthodes existantes rencontrent des difficultés à atteindre une fidélité élevée et une cohérence détaillée de l'identité (ID), principalement en raison d'un contrôle insuffisant sur les zones faciales à un niveau granulaire et de l'absence d'une stratégie globale pour la préservation de l'ID qui prendrait pleinement en compte les détails faciaux complexes ainsi que l'ensemble du visage. Pour surmonter ces limitations, nous introduisons ConsistentID, une méthode innovante conçue pour la génération de portraits préservant l'identité sous des prompts faciaux multimodaux granulaires, en utilisant une seule image de référence. ConsistentID se compose de deux éléments clés : un générateur de prompts faciaux multimodaux qui combine les caractéristiques faciales, les descriptions faciales correspondantes et le contexte facial global pour améliorer la précision des détails faciaux, ainsi qu'un réseau de préservation de l'ID optimisé grâce à une stratégie de localisation de l'attention faciale, visant à maintenir la cohérence de l'ID dans les régions faciales. Ensemble, ces composants améliorent significativement la précision de la préservation de l'ID en intégrant des informations multimodales granulaires sur l'ID provenant des régions faciales. Pour faciliter l'entraînement de ConsistentID, nous présentons un ensemble de données de portraits granulaires, FGID, comprenant plus de 500 000 images faciales, offrant une diversité et une exhaustivité supérieures aux ensembles de données faciaux publics existants. Les résultats expérimentaux confirment que notre ConsistentID atteint une précision et une diversité exceptionnelles dans la génération de visages personnalisés, surpassant les méthodes existantes sur le jeu de données MyStyle. De plus, bien que ConsistentID introduise davantage d'informations multimodales sur l'ID, il maintient une vitesse d'inférence rapide lors de la génération.
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.Summary
AI-Generated Summary