InstantID: Generación de Identidad Preservada en Segundos con Zero-Shot
InstantID: Zero-shot Identity-Preserving Generation in Seconds
January 15, 2024
Autores: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI
Resumen
Ha habido avances significativos en la síntesis de imágenes personalizadas con métodos como Textual Inversion, DreamBooth y LoRA. Sin embargo, su aplicabilidad en el mundo real se ve limitada por las altas demandas de almacenamiento, los largos procesos de ajuste fino y la necesidad de múltiples imágenes de referencia. Por otro lado, los métodos existentes basados en incrustaciones de ID, aunque requieren solo una inferencia directa, enfrentan desafíos: o bien necesitan un ajuste fino extenso en numerosos parámetros del modelo, carecen de compatibilidad con modelos preentrenados de la comunidad o no logran mantener una alta fidelidad facial. Para abordar estas limitaciones, presentamos InstantID, una potente solución basada en modelos de difusión. Nuestro módulo plug-and-play maneja hábilmente la personalización de imágenes en varios estilos utilizando solo una imagen facial, mientras garantiza una alta fidelidad. Para lograrlo, diseñamos una novedosa IdentityNet imponiendo condiciones semánticas fuertes y condiciones espaciales débiles, integrando imágenes faciales y de puntos de referencia con indicaciones textuales para guiar la generación de imágenes. InstantID demuestra un rendimiento y eficiencia excepcionales, resultando altamente beneficioso en aplicaciones del mundo real donde la preservación de la identidad es primordial. Además, nuestro trabajo se integra perfectamente con modelos populares de difusión de texto a imagen preentrenados como SD1.5 y SDXL, sirviendo como un complemento adaptable. Nuestros códigos y puntos de control preentrenados estarán disponibles en https://github.com/InstantID/InstantID.
English
There has been significant progress in personalized image synthesis with
methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world
applicability is hindered by high storage demands, lengthy fine-tuning
processes, and the need for multiple reference images. Conversely, existing ID
embedding-based methods, while requiring only a single forward inference, face
challenges: they either necessitate extensive fine-tuning across numerous model
parameters, lack compatibility with community pre-trained models, or fail to
maintain high face fidelity. Addressing these limitations, we introduce
InstantID, a powerful diffusion model-based solution. Our plug-and-play module
adeptly handles image personalization in various styles using just a single
facial image, while ensuring high fidelity. To achieve this, we design a novel
IdentityNet by imposing strong semantic and weak spatial conditions,
integrating facial and landmark images with textual prompts to steer the image
generation. InstantID demonstrates exceptional performance and efficiency,
proving highly beneficial in real-world applications where identity
preservation is paramount. Moreover, our work seamlessly integrates with
popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving
as an adaptable plugin. Our codes and pre-trained checkpoints will be available
at https://github.com/InstantID/InstantID.