FastComposer: Einstellungsfreie Mehrsubjekt-Bildgenerierung mit lokalisiertem Attention-Mechanismus
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention
May 17, 2023
Autoren: Guangxuan Xiao, Tianwei Yin, William T. Freeman, Frédo Durand, Song Han
cs.AI
Zusammenfassung
Diffusionsmodelle zeichnen sich in der Text-zu-Bild-Generierung aus, insbesondere bei der subjektgesteuerten Generierung personalisierter Bilder. Bestehende Methoden sind jedoch ineffizient, da sie eine subjektspezifische Feinabstimmung erfordern, die rechenintensiv ist und eine effiziente Bereitstellung behindert. Darüber hinaus haben bestehende Methoden Schwierigkeiten bei der Generierung mehrerer Subjekte, da sie häufig Merkmale zwischen den Subjekten vermischen. Wir stellen FastComposer vor, das eine effiziente, personalisierte, mehrsubjektige Text-zu-Bild-Generierung ohne Feinabstimmung ermöglicht. FastComposer verwendet Subjekt-Einbettungen, die von einem Bildencoder extrahiert werden, um die generische Textkonditionierung in Diffusionsmodellen zu erweitern, und ermöglicht so die Generierung personalisierter Bilder basierend auf Subjektbildern und textuellen Anweisungen mit nur Vorwärtsdurchläufen. Um das Problem der Identitätsvermischung bei der mehrsubjektigen Generierung zu lösen, schlägt FastComposer eine Kreuz-Aufmerksamkeits-Lokalisierungsüberwachung während des Trainings vor, die die Aufmerksamkeit der Referenzsubjekte auf die korrekten Regionen in den Zielbildern lenkt. Eine naive Konditionierung auf Subjekt-Einbettungen führt zu einer Überanpassung des Subjekts. FastComposer schlägt eine verzögerte Subjektkonditionierung im Denoising-Schritt vor, um sowohl die Identität als auch die Bearbeitbarkeit bei der subjektgesteuerten Bildgenerierung zu erhalten. FastComposer generiert Bilder mehrerer unbekannter Personen mit unterschiedlichen Stilen, Aktionen und Kontexten. Es erreicht eine 300- bis 2500-fache Beschleunigung im Vergleich zu Methoden, die auf Feinabstimmung basieren, und benötigt keinen zusätzlichen Speicherplatz für neue Subjekte. FastComposer ebnet den Weg für eine effiziente, personalisierte und hochwertige Erstellung von Bildern mit mehreren Subjekten. Code, Modell und Datensatz sind verfügbar unter https://github.com/mit-han-lab/fastcomposer.
English
Diffusion models excel at text-to-image generation, especially in
subject-driven generation for personalized images. However, existing methods
are inefficient due to the subject-specific fine-tuning, which is
computationally intensive and hampers efficient deployment. Moreover, existing
methods struggle with multi-subject generation as they often blend features
among subjects. We present FastComposer which enables efficient, personalized,
multi-subject text-to-image generation without fine-tuning. FastComposer uses
subject embeddings extracted by an image encoder to augment the generic text
conditioning in diffusion models, enabling personalized image generation based
on subject images and textual instructions with only forward passes. To address
the identity blending problem in the multi-subject generation, FastComposer
proposes cross-attention localization supervision during training, enforcing
the attention of reference subjects localized to the correct regions in the
target images. Naively conditioning on subject embeddings results in subject
overfitting. FastComposer proposes delayed subject conditioning in the
denoising step to maintain both identity and editability in subject-driven
image generation. FastComposer generates images of multiple unseen individuals
with different styles, actions, and contexts. It achieves
300times-2500times speedup compared to fine-tuning-based methods and
requires zero extra storage for new subjects. FastComposer paves the way for
efficient, personalized, and high-quality multi-subject image creation. Code,
model, and dataset are available at
https://github.com/mit-han-lab/fastcomposer.