KonsistentID: Porträtgenerierung mit multimodaler feingranularer Identitätserhaltung
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
Autoren: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
Zusammenfassung
Diffusionsbasierte Technologien haben bedeutende Fortschritte gemacht, insbesondere bei der personalisierten und maßgeschneiderten Gesichtserzeugung. Allerdings sehen sich bestehende Methoden mit Herausforderungen konfrontiert, um eine hohe Treue und detaillierte Identitätskonsistenz zu erreichen, hauptsächlich aufgrund unzureichender feinkörniger Kontrolle über Gesichtsbereiche und dem Fehlen einer umfassenden Strategie zur Identitätserhaltung, die die komplexen Gesichtsdetails und das Gesicht insgesamt vollständig berücksichtigt. Um diese Einschränkungen zu bewältigen, stellen wir ConsistentID vor, eine innovative Methode, die für die Erzeugung von Porträts mit vielfältiger Identitätserhaltung unter feinkörnigen multimodalen Gesichtsanreizen entwickelt wurde und nur ein einzelnes Referenzbild verwendet. ConsistentID besteht aus zwei Schlüsselkomponenten: einem multimodalen Gesichtsanreizgenerator, der Gesichtsmerkmale, entsprechende Gesichtsbeschreibungen und den Gesamtkontext des Gesichts kombiniert, um die Präzision bei Gesichtsdetails zu verbessern, und einem Identitätserhaltungsnetzwerk, das durch die Strategie der Gesichtsaufmerksamkeitslokalisation optimiert ist und darauf abzielt, die Identitätskonsistenz in Gesichtsregionen zu bewahren. Zusammen verbessern diese Komponenten signifikant die Genauigkeit der Identitätserhaltung, indem sie feinkörnige multimodale Identitätsinformationen aus Gesichtsregionen einführen. Um das Training von ConsistentID zu erleichtern, präsentieren wir ein feinkörniges Porträt-Datenset, FGID, mit über 500.000 Gesichtsbildern, das eine größere Vielfalt und Vollständigkeit als vorhandene öffentliche Gesichtsdatensets bietet, wie z.B. LAION-Face, CelebA, FFHQ und SFHQ. Experimentelle Ergebnisse belegen, dass unser ConsistentID eine außergewöhnliche Präzision und Vielfalt bei der personalisierten Gesichtserzeugung erreicht und bestehende Methoden im MyStyle-Datenset übertrifft. Darüber hinaus, während ConsistentID mehr multimodale Identitätsinformationen einführt, behält es eine schnelle Inferenzgeschwindigkeit während der Erzeugung bei.
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.Summary
AI-Generated Summary