InstantID : Génération préservant l'identité en quelques secondes sans apprentissage préalable
InstantID: Zero-shot Identity-Preserving Generation in Seconds
January 15, 2024
Auteurs: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI
Résumé
Des progrès significatifs ont été réalisés dans le domaine de la synthèse d'images personnalisées grâce à des méthodes telles que Textual Inversion, DreamBooth et LoRA. Cependant, leur applicabilité dans le monde réel est limitée par des exigences de stockage élevées, des processus de réglage fin longs et la nécessité de multiples images de référence. À l'inverse, les méthodes existantes basées sur l'incorporation d'identité (ID), bien qu'elles ne nécessitent qu'une seule inférence directe, rencontrent des défis : elles exigent soit un réglage fin étendu sur de nombreux paramètres du modèle, soit manquent de compatibilité avec les modèles pré-entraînés de la communauté, ou encore ne parviennent pas à maintenir une fidélité faciale élevée. Pour répondre à ces limitations, nous introduisons InstantID, une solution puissante basée sur un modèle de diffusion. Notre module plug-and-play gère habilement la personnalisation d'images dans divers styles en utilisant une seule image faciale, tout en garantissant une haute fidélité. Pour y parvenir, nous concevons un nouveau IdentityNet en imposant des conditions sémantiques fortes et des conditions spatiales faibles, intégrant des images faciales et des images de points de repère avec des invites textuelles pour guider la génération d'images. InstantID démontre des performances et une efficacité exceptionnelles, s'avérant très bénéfique dans des applications réelles où la préservation de l'identité est primordiale. De plus, notre travail s'intègre de manière transparente avec des modèles de diffusion texte-à-image populaires pré-entraînés comme SD1.5 et SDXL, servant de plugin adaptable. Nos codes et points de contrôle pré-entraînés seront disponibles à l'adresse https://github.com/InstantID/InstantID.
English
There has been significant progress in personalized image synthesis with
methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world
applicability is hindered by high storage demands, lengthy fine-tuning
processes, and the need for multiple reference images. Conversely, existing ID
embedding-based methods, while requiring only a single forward inference, face
challenges: they either necessitate extensive fine-tuning across numerous model
parameters, lack compatibility with community pre-trained models, or fail to
maintain high face fidelity. Addressing these limitations, we introduce
InstantID, a powerful diffusion model-based solution. Our plug-and-play module
adeptly handles image personalization in various styles using just a single
facial image, while ensuring high fidelity. To achieve this, we design a novel
IdentityNet by imposing strong semantic and weak spatial conditions,
integrating facial and landmark images with textual prompts to steer the image
generation. InstantID demonstrates exceptional performance and efficiency,
proving highly beneficial in real-world applications where identity
preservation is paramount. Moreover, our work seamlessly integrates with
popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving
as an adaptable plugin. Our codes and pre-trained checkpoints will be available
at https://github.com/InstantID/InstantID.