InstantID: Null-Shot Identitätserhaltende Erzeugung in Sekunden
InstantID: Zero-shot Identity-Preserving Generation in Seconds
January 15, 2024
Autoren: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI
Zusammenfassung
Es gab erhebliche Fortschritte in der personalisierten Bildsynthese mit Methoden wie Textual Inversion, DreamBooth und LoRA. Dennoch wird ihre praktische Anwendbarkeit durch hohen Speicherbedarf, langwierige Feinabstimmungsprozesse und die Notwendigkeit mehrerer Referenzbilder eingeschränkt. Im Gegensatz dazu stehen bestehende ID-Einbettungsmethoden, die zwar nur einen einzigen Vorwärtsdurchlauf erfordern, aber mit Herausforderungen konfrontiert sind: Sie benötigen entweder umfangreiche Feinabstimmung über zahlreiche Modellparameter, sind nicht kompatibel mit community-basierten vortrainierten Modellen oder können keine hohe Gesichtstreue gewährleisten. Um diese Einschränkungen zu überwinden, stellen wir InstantID vor, eine leistungsstarke, auf Diffusionsmodellen basierende Lösung. Unser Plug-and-Play-Modul bewältigt die Bildpersonalisierung in verschiedenen Stilen mit nur einem einzigen Gesichtsbild und gewährleistet dabei eine hohe Treue. Um dies zu erreichen, entwerfen wir ein neuartiges IdentityNet, das starke semantische und schwache räumliche Bedingungen auferlegt und Gesichts- sowie Landmarkenbilder mit Textanweisungen integriert, um die Bildgenerierung zu steuern. InstantID zeigt eine außergewöhnliche Leistung und Effizienz und erweist sich als äußerst nützlich in realen Anwendungen, bei denen die Identitätserhaltung von entscheidender Bedeutung ist. Darüber hinaus integriert sich unsere Arbeit nahtlos in beliebte vortrainierte Text-zu-Bild-Diffusionsmodelle wie SD1.5 und SDXL und fungiert als anpassungsfähiges Plugin. Unsere Codes und vortrainierten Checkpoints werden unter https://github.com/InstantID/InstantID verfügbar sein.
English
There has been significant progress in personalized image synthesis with
methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world
applicability is hindered by high storage demands, lengthy fine-tuning
processes, and the need for multiple reference images. Conversely, existing ID
embedding-based methods, while requiring only a single forward inference, face
challenges: they either necessitate extensive fine-tuning across numerous model
parameters, lack compatibility with community pre-trained models, or fail to
maintain high face fidelity. Addressing these limitations, we introduce
InstantID, a powerful diffusion model-based solution. Our plug-and-play module
adeptly handles image personalization in various styles using just a single
facial image, while ensuring high fidelity. To achieve this, we design a novel
IdentityNet by imposing strong semantic and weak spatial conditions,
integrating facial and landmark images with textual prompts to steer the image
generation. InstantID demonstrates exceptional performance and efficiency,
proving highly beneficial in real-world applications where identity
preservation is paramount. Moreover, our work seamlessly integrates with
popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving
as an adaptable plugin. Our codes and pre-trained checkpoints will be available
at https://github.com/InstantID/InstantID.