ChatPaper.aiChatPaper

InstantID: Generatie met Identiteitsbehoud in Seconden zonder Voorafgaande Training

InstantID: Zero-shot Identity-Preserving Generation in Seconds

January 15, 2024
Auteurs: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI

Samenvatting

Er is aanzienlijke vooruitgang geboekt in gepersonaliseerde beeldgeneratie met methoden zoals Textual Inversion, DreamBooth en LoRA. Toch wordt hun toepasbaarheid in de praktijk belemmerd door hoge opslageisen, tijdrovende fine-tuningprocessen en de noodzaak van meerdere referentiebeelden. Aan de andere kant hebben bestaande methoden op basis van ID-embedding, hoewel ze slechts één enkele forward inference vereisen, ook hun uitdagingen: ze vereisen ofwel uitgebreide fine-tuning over talrijke modelparameters, zijn niet compatibel met community vooraf getrainde modellen, of slagen er niet in om een hoge gezichtsfideliteit te behouden. Om deze beperkingen aan te pakken, introduceren we InstantID, een krachtige oplossing gebaseerd op een diffusiemodel. Onze plug-and-play module beheert beeldpersonalisatie in verschillende stijlsoorten met slechts één gezichtsbeeld, terwijl een hoge fideliteit wordt gegarandeerd. Om dit te bereiken, ontwerpen we een nieuw IdentityNet door sterke semantische en zwakke ruimtelijke voorwaarden op te leggen, waarbij gezichts- en landmerkbeelden worden geïntegreerd met tekstuele prompts om de beeldgeneratie te sturen. InstantID toont uitzonderlijke prestaties en efficiëntie, wat zeer nuttig blijkt in praktische toepassingen waar identiteitsbehoud van cruciaal belang is. Bovendien integreert ons werk naadloos met populaire vooraf getrainde tekst-naar-beeld diffusiemodellen zoals SD1.5 en SDXL, en fungeert het als een aanpasbare plugin. Onze codes en vooraf getrainde checkpoints zullen beschikbaar zijn op https://github.com/InstantID/InstantID.
English
There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.
PDF578December 15, 2024