Het verbeteren van tekst-naar-beeldconsistentie via automatische promptoptimalisatie
Improving Text-to-Image Consistency via Automatic Prompt Optimization
March 26, 2024
Auteurs: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
Samenvatting
Indrukwekkende vooruitgang in tekst-naar-beeld (T2I) generatieve modellen heeft geleid tot een overvloed aan hoogpresterende modellen die in staat zijn om esthetisch aantrekkelijke, fotorealistische afbeeldingen te genereren. Ondanks deze vooruitgang hebben deze modellen nog steeds moeite om afbeeldingen te produceren die consistent zijn met de invoerprompt, waarbij ze vaak falen in het correct vastleggen van objectaantallen, relaties en attributen. Bestaande oplossingen om de prompt-beeldconsistentie te verbeteren, kampen met de volgende uitdagingen: (1) ze vereisen vaak modelafstemming, (2) ze richten zich alleen op nabije promptvoorbeelden, en (3) ze worden beïnvloed door ongunstige afwegingen tussen beeldkwaliteit, representatiediversiteit en prompt-beeldconsistentie. In dit artikel gaan we in op deze uitdagingen en introduceren we een T2I optimalisatie-door-prompting framework, OPT2I, dat gebruikmaakt van een groot taalmodel (LLM) om de prompt-beeldconsistentie in T2I-modellen te verbeteren. Ons framework begint bij een gebruikersprompt en genereert iteratief herziene prompts met als doel een consistentiescore te maximaliseren. Onze uitgebreide validatie op twee datasets, MSCOCO en PartiPrompts, toont aan dat OPT2I de initiële consistentiescore met maximaal 24,9% kan verhogen in termen van DSG-score, terwijl de FID behouden blijft en de recall tussen gegenereerde en echte data wordt verhoogd. Ons werk baant de weg naar het bouwen van betrouwbaardere en robuustere T2I-systemen door de kracht van LLMs te benutten.
English
Impressive advances in text-to-image (T2I) generative models have yielded a
plethora of high performing models which are able to generate aesthetically
appealing, photorealistic images. Despite the progress, these models still
struggle to produce images that are consistent with the input prompt,
oftentimes failing to capture object quantities, relations and attributes
properly. Existing solutions to improve prompt-image consistency suffer from
the following challenges: (1) they oftentimes require model fine-tuning, (2)
they only focus on nearby prompt samples, and (3) they are affected by
unfavorable trade-offs among image quality, representation diversity, and
prompt-image consistency. In this paper, we address these challenges and
introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a
large language model (LLM) to improve prompt-image consistency in T2I models.
Our framework starts from a user prompt and iteratively generates revised
prompts with the goal of maximizing a consistency score. Our extensive
validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost
the initial consistency score by up to 24.9% in terms of DSG score while
preserving the FID and increasing the recall between generated and real data.
Our work paves the way toward building more reliable and robust T2I systems by
harnessing the power of LLMs.