ChatPaper.aiChatPaper

InstantID: Null-Shot Identitätserhaltende Erzeugung in Sekunden

InstantID: Zero-shot Identity-Preserving Generation in Seconds

January 15, 2024
Autoren: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI

Zusammenfassung

Es gab erhebliche Fortschritte in der personalisierten Bildsynthese mit Methoden wie Textual Inversion, DreamBooth und LoRA. Dennoch wird ihre praktische Anwendbarkeit durch hohen Speicherbedarf, langwierige Feinabstimmungsprozesse und die Notwendigkeit mehrerer Referenzbilder eingeschränkt. Im Gegensatz dazu stehen bestehende ID-Einbettungsmethoden, die zwar nur einen einzigen Vorwärtsdurchlauf erfordern, aber mit Herausforderungen konfrontiert sind: Sie benötigen entweder umfangreiche Feinabstimmung über zahlreiche Modellparameter, sind nicht kompatibel mit community-basierten vortrainierten Modellen oder können keine hohe Gesichtstreue gewährleisten. Um diese Einschränkungen zu überwinden, stellen wir InstantID vor, eine leistungsstarke, auf Diffusionsmodellen basierende Lösung. Unser Plug-and-Play-Modul bewältigt die Bildpersonalisierung in verschiedenen Stilen mit nur einem einzigen Gesichtsbild und gewährleistet dabei eine hohe Treue. Um dies zu erreichen, entwerfen wir ein neuartiges IdentityNet, das starke semantische und schwache räumliche Bedingungen auferlegt und Gesichts- sowie Landmarkenbilder mit Textanweisungen integriert, um die Bildgenerierung zu steuern. InstantID zeigt eine außergewöhnliche Leistung und Effizienz und erweist sich als äußerst nützlich in realen Anwendungen, bei denen die Identitätserhaltung von entscheidender Bedeutung ist. Darüber hinaus integriert sich unsere Arbeit nahtlos in beliebte vortrainierte Text-zu-Bild-Diffusionsmodelle wie SD1.5 und SDXL und fungiert als anpassungsfähiges Plugin. Unsere Codes und vortrainierten Checkpoints werden unter https://github.com/InstantID/InstantID verfügbar sein.
English
There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.
PDF588December 15, 2024