Verbesserung der Text-zu-Bild-Konsistenz durch automatische Optimierung der Eingabeaufforderung
Improving Text-to-Image Consistency via Automatic Prompt Optimization
March 26, 2024
Autoren: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
Zusammenfassung
Beeindruckende Fortschritte bei Text-zu-Bild (T2I) generativen Modellen haben eine Vielzahl leistungsstarker Modelle hervorgebracht, die in der Lage sind, ästhetisch ansprechende, fotorealistische Bilder zu generieren. Trotz des Fortschritts haben diese Modelle immer noch Schwierigkeiten, Bilder zu erzeugen, die konsistent mit der Eingabeaufforderung sind, und scheitern oft daran, Objektmengen, Beziehungen und Attribute ordnungsgemäß zu erfassen. Bestehende Lösungen zur Verbesserung der Konsistenz zwischen Aufforderung und Bild leiden unter den folgenden Herausforderungen: (1) sie erfordern oft eine Feinabstimmung des Modells, (2) sie konzentrieren sich nur auf nahegelegene Aufforderungsbeispiele und (3) sie sind von ungünstigen Kompromissen zwischen Bildqualität, Repräsentationsvielfalt und Konsistenz zwischen Aufforderung und Bild betroffen. In diesem Papier gehen wir auf diese Herausforderungen ein und stellen einen T2I-Optimierungsansatz durch Aufforderungen vor, OPT2I, der ein großes Sprachmodell (LLM) nutzt, um die Konsistenz zwischen Aufforderung und Bild in T2I-Modellen zu verbessern. Unser Ansatz beginnt mit einer Benutzeranweisung und generiert iterativ überarbeitete Anweisungen mit dem Ziel, einen Konsistenzwert zu maximieren. Unsere umfangreiche Validierung an zwei Datensätzen, MSCOCO und PartiPrompts, zeigt, dass OPT2I den anfänglichen Konsistenzwert um bis zu 24,9% in Bezug auf den DSG-Wert steigern kann, während der FID beibehalten und die Übereinstimmung zwischen generierten und realen Daten erhöht wird. Unsere Arbeit ebnet den Weg für den Aufbau zuverlässigerer und robusterer T2I-Systeme durch die Nutzung der Leistungsfähigkeit von LLMs.
English
Impressive advances in text-to-image (T2I) generative models have yielded a
plethora of high performing models which are able to generate aesthetically
appealing, photorealistic images. Despite the progress, these models still
struggle to produce images that are consistent with the input prompt,
oftentimes failing to capture object quantities, relations and attributes
properly. Existing solutions to improve prompt-image consistency suffer from
the following challenges: (1) they oftentimes require model fine-tuning, (2)
they only focus on nearby prompt samples, and (3) they are affected by
unfavorable trade-offs among image quality, representation diversity, and
prompt-image consistency. In this paper, we address these challenges and
introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a
large language model (LLM) to improve prompt-image consistency in T2I models.
Our framework starts from a user prompt and iteratively generates revised
prompts with the goal of maximizing a consistency score. Our extensive
validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost
the initial consistency score by up to 24.9% in terms of DSG score while
preserving the FID and increasing the recall between generated and real data.
Our work paves the way toward building more reliable and robust T2I systems by
harnessing the power of LLMs.Summary
AI-Generated Summary