ConsistentID: Generación de Retratos con Preservación Multimodal de Identidad de Grano Fino
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
Autores: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
Resumen
Las tecnologías basadas en difusión han logrado avances significativos, particularmente en la generación de rostros personalizados y adaptados. Sin embargo, los métodos existentes enfrentan desafíos para lograr una alta fidelidad y una consistencia detallada en la identidad (ID), principalmente debido a un control insuficiente y granular sobre las áreas faciales y la falta de una estrategia integral para la preservación de la ID al considerar plenamente los detalles faciales intrincados y el rostro en su conjunto. Para abordar estas limitaciones, presentamos ConsistentID, un método innovador diseñado para la generación de retratos que preservan la identidad de manera diversa bajo indicaciones faciales multimodales y granulares, utilizando solo una imagen de referencia. ConsistentID consta de dos componentes clave: un generador de indicaciones faciales multimodales que combina características faciales, descripciones faciales correspondientes y el contexto facial general para mejorar la precisión en los detalles faciales, y una red de preservación de la ID optimizada mediante una estrategia de localización de atención facial, destinada a mantener la consistencia de la ID en las regiones faciales. Juntos, estos componentes mejoran significativamente la precisión en la preservación de la ID al introducir información multimodal granular de la ID a partir de las regiones faciales. Para facilitar el entrenamiento de ConsistentID, presentamos un conjunto de datos de retratos granulares, FGID, con más de 500,000 imágenes faciales, que ofrece una mayor diversidad y exhaustividad que los conjuntos de datos faciales públicos existentes. Los resultados experimentales confirman que nuestro ConsistentID logra una precisión y diversidad excepcionales en la generación de rostros personalizados, superando a los métodos existentes en el conjunto de datos MyStyle. Además, aunque ConsistentID introduce más información multimodal de la ID, mantiene una velocidad de inferencia rápida durante la generación.
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.Summary
AI-Generated Summary