ConsistentID: Portretgeneratie met Multimodale Fijnmazige Identiteitsbehoud
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving
April 25, 2024
Auteurs: Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang
cs.AI
Samenvatting
Diffusiegebaseerde technologieën hebben aanzienlijke vooruitgang geboekt, met name op het gebied van gepersonaliseerde en op maat gemaakte gezichtsgeneratie. Bestaande methoden kampen echter met uitdagingen bij het bereiken van hoge nauwkeurigheid en gedetailleerde identiteitsconsistentie (ID), voornamelijk door onvoldoende fijnmazige controle over gezichtsgebieden en het ontbreken van een uitgebreide strategie voor ID-behoud die rekening houdt met complexe gezichtsdetails en het gezicht als geheel. Om deze beperkingen aan te pakken, introduceren we ConsistentID, een innovatieve methode ontworpen voor diverse identiteitsbehoudende portretgeneratie onder fijnmazige multimodale gezichtsprompts, waarbij slechts één referentiebeeld wordt gebruikt. ConsistentID bestaat uit twee belangrijke componenten: een multimodale gezichtspromptgenerator die gezichtskenmerken, bijbehorende gezichtsbeschrijvingen en de algehele gezichtscontext combineert om de precisie van gezichtsdetails te verbeteren, en een ID-behoudnetwerk dat is geoptimaliseerd via de strategie voor lokalisatie van gezichtsattentie, gericht op het behouden van ID-consistentie in gezichtsgebieden. Samen verbeteren deze componenten de nauwkeurigheid van ID-behoud aanzienlijk door fijnmazige multimodale ID-informatie uit gezichtsgebieden te introduceren. Om de training van ConsistentID te vergemakkelijken, presenteren we een fijnmazig portretdataset, FGID, met meer dan 500.000 gezichtsafbeeldingen, die meer diversiteit en volledigheid biedt dan bestaande openbare gezichtsdatasets. % zoals LAION-Face, CelebA, FFHQ en SFHQ. Experimentele resultaten bevestigen dat onze ConsistentID uitblinkt in precisie en diversiteit bij gepersonaliseerde gezichtsgeneratie, en bestaande methoden overtreft in de MyStyle-dataset. Bovendien behoudt ConsistentID, ondanks de introductie van meer multimodale ID-informatie, een snelle inferentiesnelheid tijdens de generatie.
English
Diffusion-based technologies have made significant strides, particularly in
personalized and customized facialgeneration. However, existing methods face
challenges in achieving high-fidelity and detailed identity (ID)consistency,
primarily due to insufficient fine-grained control over facial areas and the
lack of a comprehensive strategy for ID preservation by fully considering
intricate facial details and the overall face. To address these limitations, we
introduce ConsistentID, an innovative method crafted for
diverseidentity-preserving portrait generation under fine-grained multimodal
facial prompts, utilizing only a single reference image. ConsistentID comprises
two key components: a multimodal facial prompt generator that combines facial
features, corresponding facial descriptions and the overall facial context to
enhance precision in facial details, and an ID-preservation network optimized
through the facial attention localization strategy, aimed at preserving ID
consistency in facial regions. Together, these components significantly enhance
the accuracy of ID preservation by introducing fine-grained multimodal ID
information from facial regions. To facilitate training of ConsistentID, we
present a fine-grained portrait dataset, FGID, with over 500,000 facial images,
offering greater diversity and comprehensiveness than existing public facial
datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results
substantiate that our ConsistentID achieves exceptional precision and diversity
in personalized facial generation, surpassing existing methods in the MyStyle
dataset. Furthermore, while ConsistentID introduces more multimodal ID
information, it maintains a fast inference speed during generation.