Amélioration de la cohérence texte-image via l'optimisation automatique des prompts
Improving Text-to-Image Consistency via Automatic Prompt Optimization
March 26, 2024
Auteurs: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
Résumé
Les avancées impressionnantes dans les modèles génératifs texte-à-image (T2I) ont donné naissance à une pléthore de modèles performants capables de générer des images esthétiquement attrayantes et photoréalistes. Malgré ces progrès, ces modèles peinent encore à produire des images cohérentes avec l'invite d'entrée, échouant souvent à capturer correctement les quantités d'objets, leurs relations et leurs attributs. Les solutions existantes pour améliorer la cohérence entre l'invite et l'image se heurtent aux défis suivants : (1) elles nécessitent souvent un ajustement fin du modèle, (2) elles se concentrent uniquement sur des échantillons d'invites proches, et (3) elles sont affectées par des compromis défavorables entre la qualité de l'image, la diversité de la représentation et la cohérence entre l'invite et l'image. Dans cet article, nous relevons ces défis et introduisons un cadre d'optimisation par invitation, OPT2I, qui exploite un modèle de langage de grande taille (LLM) pour améliorer la cohérence entre l'invite et l'image dans les modèles T2I. Notre cadre part d'une invite utilisateur et génère itérativement des invites révisées dans le but de maximiser un score de cohérence. Notre validation approfondie sur deux ensembles de données, MSCOCO et PartiPrompts, montre qu'OPT2I peut augmenter le score de cohérence initial jusqu'à 24,9 % en termes de score DSG tout en préservant le FID et en augmentant le rappel entre les données générées et réelles. Notre travail ouvre la voie à la construction de systèmes T2I plus fiables et robustes en exploitant la puissance des LLM.
English
Impressive advances in text-to-image (T2I) generative models have yielded a
plethora of high performing models which are able to generate aesthetically
appealing, photorealistic images. Despite the progress, these models still
struggle to produce images that are consistent with the input prompt,
oftentimes failing to capture object quantities, relations and attributes
properly. Existing solutions to improve prompt-image consistency suffer from
the following challenges: (1) they oftentimes require model fine-tuning, (2)
they only focus on nearby prompt samples, and (3) they are affected by
unfavorable trade-offs among image quality, representation diversity, and
prompt-image consistency. In this paper, we address these challenges and
introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a
large language model (LLM) to improve prompt-image consistency in T2I models.
Our framework starts from a user prompt and iteratively generates revised
prompts with the goal of maximizing a consistency score. Our extensive
validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost
the initial consistency score by up to 24.9% in terms of DSG score while
preserving the FID and increasing the recall between generated and real data.
Our work paves the way toward building more reliable and robust T2I systems by
harnessing the power of LLMs.Summary
AI-Generated Summary