ChatPaper.aiChatPaper

ConsistentID: Geração de Retratos com Preservação de Identidade Multimodal de Alta Granularidade

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

April 25, 2024
Autores: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI

Resumo

Tecnologias baseadas em difusão têm alcançado avanços significativos, especialmente na geração personalizada e customizada de rostos. No entanto, os métodos existentes enfrentam desafios para atingir alta fidelidade e consistência detalhada de identidade (ID), principalmente devido ao controle insuficiente em áreas específicas do rosto e à falta de uma estratégia abrangente para preservação de ID, que considere plenamente os detalhes faciais intrincados e o rosto como um todo. Para superar essas limitações, apresentamos o ConsistentID, um método inovador projetado para a geração diversificada de retratos com preservação de identidade sob prompts faciais multimodais de granularidade fina, utilizando apenas uma única imagem de referência. O ConsistentID consiste em dois componentes principais: um gerador de prompts faciais multimodais que combina características faciais, descrições faciais correspondentes e o contexto facial geral para aprimorar a precisão dos detalhes faciais, e uma rede de preservação de ID otimizada por meio de uma estratégia de localização de atenção facial, voltada para manter a consistência de ID nas regiões faciais. Juntos, esses componentes melhoram significativamente a precisão da preservação de ID ao introduzir informações multimodais de ID de granularidade fina provenientes das regiões faciais. Para facilitar o treinamento do ConsistentID, apresentamos um conjunto de dados de retratos de granularidade fina, o FGID, com mais de 500.000 imagens faciais, oferecendo maior diversidade e abrangência em comparação com conjuntos de dados faciais públicos existentes. % como LAION-Face, CelebA, FFHQ e SFHQ. Resultados experimentais comprovam que o ConsistentID alcança precisão e diversidade excepcionais na geração de rostos personalizados, superando métodos existentes no conjunto de dados MyStyle. Além disso, embora o ConsistentID introduza mais informações multimodais de ID, ele mantém uma velocidade de inferência rápida durante a geração.
English
Diffusion-based technologies have made significant strides, particularly in personalized and customized facialgeneration. However, existing methods face challenges in achieving high-fidelity and detailed identity (ID)consistency, primarily due to insufficient fine-grained control over facial areas and the lack of a comprehensive strategy for ID preservation by fully considering intricate facial details and the overall face. To address these limitations, we introduce ConsistentID, an innovative method crafted for diverseidentity-preserving portrait generation under fine-grained multimodal facial prompts, utilizing only a single reference image. ConsistentID comprises two key components: a multimodal facial prompt generator that combines facial features, corresponding facial descriptions and the overall facial context to enhance precision in facial details, and an ID-preservation network optimized through the facial attention localization strategy, aimed at preserving ID consistency in facial regions. Together, these components significantly enhance the accuracy of ID preservation by introducing fine-grained multimodal ID information from facial regions. To facilitate training of ConsistentID, we present a fine-grained portrait dataset, FGID, with over 500,000 facial images, offering greater diversity and comprehensiveness than existing public facial datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results substantiate that our ConsistentID achieves exceptional precision and diversity in personalized facial generation, surpassing existing methods in the MyStyle dataset. Furthermore, while ConsistentID introduces more multimodal ID information, it maintains a fast inference speed during generation.
PDF191December 15, 2024