ChatPaper.aiChatPaper

Trainingsfreie konsistente Text-zu-Bild-Generierung

Training-Free Consistent Text-to-Image Generation

February 5, 2024
Autoren: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI

Zusammenfassung

Text-to-Image-Modelle bieten ein neues Maß an kreativer Flexibilität, indem sie Nutzern ermöglichen, den Bildgenerierungsprozess durch natürliche Sprache zu steuern. Die konsistente Darstellung desselben Subjekts über verschiedene Prompts hinweg bleibt jedoch eine Herausforderung. Bestehende Ansätze feintunen das Modell, um ihm neue Wörter beizubringen, die spezifische, vom Nutzer bereitgestellte Subjekte beschreiben, oder fügen dem Modell eine Bildkonditionierung hinzu. Diese Methoden erfordern eine zeitaufwändige Optimierung pro Subjekt oder ein groß angelegtes Pre-Training. Darüber hinaus haben sie Schwierigkeiten, generierte Bilder mit Textprompts in Einklang zu bringen und mehrere Subjekte darzustellen. Hier präsentieren wir ConsiStory, einen trainingsfreien Ansatz, der eine konsistente Subjektgenerierung durch die gemeinsame Nutzung interner Aktivierungen des vortrainierten Modells ermöglicht. Wir führen einen subjektgesteuerten Shared-Attention-Block und eine korrespondenzbasierte Feature-Injection ein, um die Subjektkonsistenz zwischen Bildern zu fördern. Zudem entwickeln wir Strategien, um die Layoutvielfalt zu erhöhen, während die Subjektkonsistenz erhalten bleibt. Wir vergleichen ConsiStory mit einer Reihe von Baselines und demonstrieren state-of-the-art Leistung in Bezug auf Subjektkonsistenz und Textausrichtung, ohne einen einzigen Optimierungsschritt zu benötigen. Schließlich kann ConsiStory natürlich auf Multi-Subjekt-Szenarien erweitert werden und sogar trainingsfreie Personalisierung für gängige Objekte ermöglichen.
English
Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.
PDF6812December 15, 2024