ChatPaper.aiChatPaper

ConsistentID : Génération de portraits avec préservation multimodale fine de l'identité

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

April 25, 2024
Auteurs: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI

Résumé

Les technologies basées sur la diffusion ont réalisé des avancées significatives, notamment dans la génération de visages personnalisés et sur mesure. Cependant, les méthodes existantes rencontrent des difficultés à atteindre une fidélité élevée et une cohérence détaillée de l'identité (ID), principalement en raison d'un contrôle insuffisant sur les zones faciales à un niveau granulaire et de l'absence d'une stratégie globale pour la préservation de l'ID qui prendrait pleinement en compte les détails faciaux complexes ainsi que l'ensemble du visage. Pour surmonter ces limitations, nous introduisons ConsistentID, une méthode innovante conçue pour la génération de portraits préservant l'identité sous des prompts faciaux multimodaux granulaires, en utilisant une seule image de référence. ConsistentID se compose de deux éléments clés : un générateur de prompts faciaux multimodaux qui combine les caractéristiques faciales, les descriptions faciales correspondantes et le contexte facial global pour améliorer la précision des détails faciaux, ainsi qu'un réseau de préservation de l'ID optimisé grâce à une stratégie de localisation de l'attention faciale, visant à maintenir la cohérence de l'ID dans les régions faciales. Ensemble, ces composants améliorent significativement la précision de la préservation de l'ID en intégrant des informations multimodales granulaires sur l'ID provenant des régions faciales. Pour faciliter l'entraînement de ConsistentID, nous présentons un ensemble de données de portraits granulaires, FGID, comprenant plus de 500 000 images faciales, offrant une diversité et une exhaustivité supérieures aux ensembles de données faciaux publics existants. Les résultats expérimentaux confirment que notre ConsistentID atteint une précision et une diversité exceptionnelles dans la génération de visages personnalisés, surpassant les méthodes existantes sur le jeu de données MyStyle. De plus, bien que ConsistentID introduise davantage d'informations multimodales sur l'ID, il maintient une vitesse d'inférence rapide lors de la génération.
English
Diffusion-based technologies have made significant strides, particularly in personalized and customized facialgeneration. However, existing methods face challenges in achieving high-fidelity and detailed identity (ID)consistency, primarily due to insufficient fine-grained control over facial areas and the lack of a comprehensive strategy for ID preservation by fully considering intricate facial details and the overall face. To address these limitations, we introduce ConsistentID, an innovative method crafted for diverseidentity-preserving portrait generation under fine-grained multimodal facial prompts, utilizing only a single reference image. ConsistentID comprises two key components: a multimodal facial prompt generator that combines facial features, corresponding facial descriptions and the overall facial context to enhance precision in facial details, and an ID-preservation network optimized through the facial attention localization strategy, aimed at preserving ID consistency in facial regions. Together, these components significantly enhance the accuracy of ID preservation by introducing fine-grained multimodal ID information from facial regions. To facilitate training of ConsistentID, we present a fine-grained portrait dataset, FGID, with over 500,000 facial images, offering greater diversity and comprehensiveness than existing public facial datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results substantiate that our ConsistentID achieves exceptional precision and diversity in personalized facial generation, surpassing existing methods in the MyStyle dataset. Furthermore, while ConsistentID introduces more multimodal ID information, it maintains a fast inference speed during generation.

Summary

AI-Generated Summary

PDF201December 15, 2024