Migliorare la coerenza testo-immagine tramite ottimizzazione automatica dei prompt
Improving Text-to-Image Consistency via Automatic Prompt Optimization
March 26, 2024
Autori: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
Abstract
Gli impressionanti progressi nei modelli generativi testo-immagine (T2I) hanno portato a una pletora di modelli ad alte prestazioni in grado di generare immagini esteticamente gradevoli e fotorealistiche. Nonostante i progressi, questi modelli continuano a lottare per produrre immagini coerenti con il prompt di input, spesso non riuscendo a catturare correttamente quantità, relazioni e attributi degli oggetti. Le soluzioni esistenti per migliorare la coerenza tra prompt e immagine affrontano le seguenti sfide: (1) spesso richiedono un fine-tuning del modello, (2) si concentrano solo su campioni di prompt vicini e (3) sono influenzate da compromessi sfavorevoli tra qualità dell'immagine, diversità della rappresentazione e coerenza tra prompt e immagine. In questo articolo, affrontiamo queste sfide e introduciamo un framework di ottimizzazione tramite prompt per i modelli T2I, chiamato OPT2I, che sfrutta un modello linguistico di grandi dimensioni (LLM) per migliorare la coerenza tra prompt e immagine nei modelli T2I. Il nostro framework parte da un prompt dell'utente e genera iterativamente prompt rivisti con l'obiettivo di massimizzare un punteggio di coerenza. La nostra ampia validazione su due dataset, MSCOCO e PartiPrompts, dimostra che OPT2I può aumentare il punteggio di coerenza iniziale fino al 24,9% in termini di punteggio DSG, preservando l'FID e aumentando il richiamo tra i dati generati e quelli reali. Il nostro lavoro apre la strada verso la costruzione di sistemi T2I più affidabili e robusti sfruttando la potenza degli LLM.
English
Impressive advances in text-to-image (T2I) generative models have yielded a
plethora of high performing models which are able to generate aesthetically
appealing, photorealistic images. Despite the progress, these models still
struggle to produce images that are consistent with the input prompt,
oftentimes failing to capture object quantities, relations and attributes
properly. Existing solutions to improve prompt-image consistency suffer from
the following challenges: (1) they oftentimes require model fine-tuning, (2)
they only focus on nearby prompt samples, and (3) they are affected by
unfavorable trade-offs among image quality, representation diversity, and
prompt-image consistency. In this paper, we address these challenges and
introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a
large language model (LLM) to improve prompt-image consistency in T2I models.
Our framework starts from a user prompt and iteratively generates revised
prompts with the goal of maximizing a consistency score. Our extensive
validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost
the initial consistency score by up to 24.9% in terms of DSG score while
preserving the FID and increasing the recall between generated and real data.
Our work paves the way toward building more reliable and robust T2I systems by
harnessing the power of LLMs.