ChatPaper.aiChatPaper

InstantID: Generazione Zero-shot con Conservazione dell'Identità in Secondi

InstantID: Zero-shot Identity-Preserving Generation in Seconds

January 15, 2024
Autori: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI

Abstract

Ci sono stati significativi progressi nella sintesi di immagini personalizzate con metodi come Textual Inversion, DreamBooth e LoRA. Tuttavia, la loro applicabilità nel mondo reale è limitata da elevate richieste di archiviazione, lunghi processi di fine-tuning e la necessità di più immagini di riferimento. Al contrario, i metodi esistenti basati su embedding ID, pur richiedendo solo una singola inferenza in avanti, affrontano diverse sfide: necessitano di un ampio fine-tuning su numerosi parametri del modello, mancano di compatibilità con modelli pre-addestrati dalla comunità o non riescono a mantenere un'elevata fedeltà del volto. Per affrontare queste limitazioni, introduciamo InstantID, una potente soluzione basata su modelli di diffusione. Il nostro modulo plug-and-play gestisce abilmente la personalizzazione delle immagini in vari stili utilizzando una sola immagine facciale, garantendo al contempo un'elevata fedeltà. Per raggiungere questo obiettivo, progettiamo un nuovo IdentityNet imponendo forti condizioni semantiche e deboli condizioni spaziali, integrando immagini facciali e landmark con prompt testuali per guidare la generazione delle immagini. InstantID dimostra prestazioni e efficienza eccezionali, risultando altamente vantaggioso nelle applicazioni reali in cui la conservazione dell'identità è fondamentale. Inoltre, il nostro lavoro si integra perfettamente con popolari modelli di diffusione testo-immagine pre-addestrati come SD1.5 e SDXL, fungendo da plugin adattabile. I nostri codici e checkpoint pre-addestrati saranno disponibili su https://github.com/InstantID/InstantID.
English
There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.
PDF578December 15, 2024