InstantID: Geração de Identidade Preservada em Segundos com Zero-Shot
InstantID: Zero-shot Identity-Preserving Generation in Seconds
January 15, 2024
Autores: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI
Resumo
Houve um progresso significativo na síntese de imagens personalizadas com métodos como Textual Inversion, DreamBooth e LoRA. No entanto, sua aplicabilidade no mundo real é limitada pelas altas demandas de armazenamento, processos de ajuste fino demorados e a necessidade de múltiplas imagens de referência. Por outro lado, os métodos existentes baseados em incorporação de ID, embora exijam apenas uma única inferência direta, enfrentam desafios: ou exigem um extenso ajuste fino em inúmeros parâmetros do modelo, não são compatíveis com modelos pré-treinados pela comunidade ou falham em manter uma alta fidelidade facial. Para abordar essas limitações, introduzimos o InstantID, uma solução poderosa baseada em modelos de difusão. Nosso módulo plug-and-play lida habilmente com a personalização de imagens em vários estilos usando apenas uma única imagem facial, garantindo alta fidelidade. Para alcançar isso, projetamos uma nova IdentityNet, impondo condições semânticas fortes e condições espaciais fracas, integrando imagens faciais e de marcos com prompts textuais para orientar a geração de imagens. O InstantID demonstra um desempenho e eficiência excepcionais, provando ser altamente benéfico em aplicações do mundo real onde a preservação da identidade é primordial. Além disso, nosso trabalho se integra perfeitamente com modelos populares de difusão de texto para imagem pré-treinados, como SD1.5 e SDXL, servindo como um plugin adaptável. Nossos códigos e checkpoints pré-treinados estarão disponíveis em https://github.com/InstantID/InstantID.
English
There has been significant progress in personalized image synthesis with
methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world
applicability is hindered by high storage demands, lengthy fine-tuning
processes, and the need for multiple reference images. Conversely, existing ID
embedding-based methods, while requiring only a single forward inference, face
challenges: they either necessitate extensive fine-tuning across numerous model
parameters, lack compatibility with community pre-trained models, or fail to
maintain high face fidelity. Addressing these limitations, we introduce
InstantID, a powerful diffusion model-based solution. Our plug-and-play module
adeptly handles image personalization in various styles using just a single
facial image, while ensuring high fidelity. To achieve this, we design a novel
IdentityNet by imposing strong semantic and weak spatial conditions,
integrating facial and landmark images with textual prompts to steer the image
generation. InstantID demonstrates exceptional performance and efficiency,
proving highly beneficial in real-world applications where identity
preservation is paramount. Moreover, our work seamlessly integrates with
popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving
as an adaptable plugin. Our codes and pre-trained checkpoints will be available
at https://github.com/InstantID/InstantID.