ConsistentID: Generazione di Ritratti con Preservazione Multimodale Fine-Grained dell'Identità
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
Autori: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
Abstract
Le tecnologie basate sulla diffusione hanno compiuto progressi significativi, in particolare nella generazione di volti personalizzati e su misura. Tuttavia, i metodi esistenti incontrano difficoltà nel raggiungere un'elevata fedeltà e una dettagliata coerenza dell'identità (ID), principalmente a causa di un controllo insufficiente a livello granulare sulle aree del volto e della mancanza di una strategia completa per la preservazione dell'ID che consideri appieno i dettagli facciali intricati e l'aspetto complessivo del volto. Per affrontare queste limitazioni, introduciamo ConsistentID, un metodo innovativo progettato per la generazione di ritratti con preservazione dell'identità sotto prompt facciali multimodali a grana fine, utilizzando una sola immagine di riferimento. ConsistentID comprende due componenti chiave: un generatore di prompt facciali multimodali che combina caratteristiche facciali, descrizioni facciali corrispondenti e il contesto facciale complessivo per migliorare la precisione nei dettagli facciali, e una rete di preservazione dell'ID ottimizzata attraverso una strategia di localizzazione dell'attenzione facciale, mirata a preservare la coerenza dell'ID nelle regioni del volto. Insieme, queste componenti migliorano significativamente l'accuratezza della preservazione dell'ID introducendo informazioni multimodali dell'ID a grana fine dalle regioni facciali. Per facilitare l'addestramento di ConsistentID, presentiamo un dataset di ritratti a grana fine, FGID, con oltre 500.000 immagini facciali, offrendo una maggiore diversità e completezza rispetto ai dataset facciali pubblici esistenti. I risultati sperimentali confermano che il nostro ConsistentID raggiunge una precisione e una diversità eccezionali nella generazione di volti personalizzati, superando i metodi esistenti nel dataset MyStyle. Inoltre, sebbene ConsistentID introduca più informazioni multimodali sull'ID, mantiene una velocità di inferenza rapida durante la generazione.
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.