Training-vrije consistente tekst-naar-beeldgeneratie
Training-Free Consistent Text-to-Image Generation
February 5, 2024
Auteurs: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI
Samenvatting
Text-to-image-modellen bieden een nieuw niveau van creatieve flexibiliteit door gebruikers in staat te stellen het beeldgeneratieproces te sturen via natuurlijke taal. Het blijft echter een uitdaging om met deze modellen hetzelfde onderwerp consistent weer te geven bij diverse prompts. Bestaande benaderingen fine-tunen het model om het nieuwe woorden aan te leren die specifieke door de gebruiker geleverde onderwerpen beschrijven, of voegen beeldconditionering toe aan het model. Deze methoden vereisen tijdrovende optimalisatie per onderwerp of grootschalige voorafgaande training. Bovendien hebben ze moeite om gegenereerde beelden af te stemmen op tekstprompts en ondervinden ze problemen bij het weergeven van meerdere onderwerpen. Hier presenteren we ConsiStory, een trainingsvrije aanpak die consistente onderwerpgeneratie mogelijk maakt door de interne activeringen van het vooraf getrainde model te delen. We introduceren een onderwerpgedreven gedeeld aandachtblok en correspondentiegebaseerde feature-injectie om onderwerpconsistentie tussen beelden te bevorderen. Daarnaast ontwikkelen we strategieën om lay-outdiversiteit te stimuleren terwijl de onderwerpconsistentie behouden blijft. We vergelijken ConsiStory met een reeks baselines en demonstreren state-of-the-art prestaties op het gebied van onderwerpconsistentie en tekstafstemming, zonder ook maar één optimalisatiestap te vereisen. Ten slotte kan ConsiStory zich natuurlijk uitbreiden naar scenario's met meerdere onderwerpen en zelfs trainingsvrije personalisatie mogelijk maken voor veelvoorkomende objecten.
English
Text-to-image models offer a new level of creative flexibility by allowing
users to guide the image generation process through natural language. However,
using these models to consistently portray the same subject across diverse
prompts remains challenging. Existing approaches fine-tune the model to teach
it new words that describe specific user-provided subjects or add image
conditioning to the model. These methods require lengthy per-subject
optimization or large-scale pre-training. Moreover, they struggle to align
generated images with text prompts and face difficulties in portraying multiple
subjects. Here, we present ConsiStory, a training-free approach that enables
consistent subject generation by sharing the internal activations of the
pretrained model. We introduce a subject-driven shared attention block and
correspondence-based feature injection to promote subject consistency between
images. Additionally, we develop strategies to encourage layout diversity while
maintaining subject consistency. We compare ConsiStory to a range of baselines,
and demonstrate state-of-the-art performance on subject consistency and text
alignment, without requiring a single optimization step. Finally, ConsiStory
can naturally extend to multi-subject scenarios, and even enable training-free
personalization for common objects.