Training-vrije consistente tekst-naar-beeldgeneratie

Samenvatting

Text-to-image-modellen bieden een nieuw niveau van creatieve flexibiliteit door gebruikers in staat te stellen het beeldgeneratieproces te sturen via natuurlijke taal. Het blijft echter een uitdaging om met deze modellen hetzelfde onderwerp consistent weer te geven bij diverse prompts. Bestaande benaderingen fine-tunen het model om het nieuwe woorden aan te leren die specifieke door de gebruiker geleverde onderwerpen beschrijven, of voegen beeldconditionering toe aan het model. Deze methoden vereisen tijdrovende optimalisatie per onderwerp of grootschalige voorafgaande training. Bovendien hebben ze moeite om gegenereerde beelden af te stemmen op tekstprompts en ondervinden ze problemen bij het weergeven van meerdere onderwerpen. Hier presenteren we ConsiStory, een trainingsvrije aanpak die consistente onderwerpgeneratie mogelijk maakt door de interne activeringen van het vooraf getrainde model te delen. We introduceren een onderwerpgedreven gedeeld aandachtblok en correspondentiegebaseerde feature-injectie om onderwerpconsistentie tussen beelden te bevorderen. Daarnaast ontwikkelen we strategieën om lay-outdiversiteit te stimuleren terwijl de onderwerpconsistentie behouden blijft. We vergelijken ConsiStory met een reeks baselines en demonstreren state-of-the-art prestaties op het gebied van onderwerpconsistentie en tekstafstemming, zonder ook maar één optimalisatiestap te vereisen. Ten slotte kan ConsiStory zich natuurlijk uitbreiden naar scenario's met meerdere onderwerpen en zelfs trainingsvrije personalisatie mogelijk maken voor veelvoorkomende objecten.

English

Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.

Training-vrije consistente tekst-naar-beeldgeneratie

Training-Free Consistent Text-to-Image Generation

Samenvatting

Support