GraPE: Ein Rahmenwerk zum Generieren, Planen und Bearbeiten für die kompositionelle T2I-Synthese
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
Autoren: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
Zusammenfassung
Die Generierung von Text-zu-Bildern (T2I) hat dank Diffusionsmodellen erhebliche Fortschritte gemacht, die die Generierung fotorealistischer Bilder aus Textvorgaben ermöglichen. Trotz dieser Fortschritte stehen bestehende Methoden immer noch vor Herausforderungen bei der Umsetzung komplexer Textvorgaben, insbesondere solcher, die eine zusammengesetzte und mehrstufige Argumentation erfordern. Angesichts solch komplexer Anweisungen machen SOTA-Modelle oft Fehler bei der treuen Modellierung von Objekteigenschaften und deren Beziehungen zueinander. In dieser Arbeit stellen wir ein alternatives Paradigma für die T2I-Synthese vor, das die Aufgabe der komplexen mehrstufigen Generierung in drei Schritte unterteilt: (a) Generieren: Zunächst generieren wir ein Bild mithilfe bestehender Diffusionsmodelle. (b) Planen: Wir verwenden Multi-Modal LLMs (MLLMs), um Fehler im generierten Bild zu identifizieren, die sich in Form einzelner Objekte und ihrer Eigenschaften äußern, und erstellen eine Sequenz von Korrekturschritten in Form eines Bearbeitungsplans. (c) Bearbeiten: Wir verwenden vorhandene textgesteuerte Bildbearbeitungsmodelle, um unseren Bearbeitungsplan sequenziell über das generierte Bild auszuführen und das gewünschte Bild zu erhalten, das der ursprünglichen Anweisung treu ist. Unser Ansatz zeichnet sich durch seine Modularität, Unabhängigkeit vom Training und Anwendbarkeit auf beliebige Kombinationen von Bildgenerierungs- und Bearbeitungsmodellen aus. Als zusätzlichen Beitrag entwickeln wir auch ein Modell, das zu einer zusammengesetzten Bearbeitung fähig ist, was die Gesamtgenauigkeit unseres vorgeschlagenen Ansatzes weiter verbessert. Unsere Methode tauscht flexibel die Inferenzzeitberechnung gegen die Leistung bei zusammengesetzten Textvorgaben aus. Wir führen umfangreiche experimentelle Evaluationen über 3 Benchmarks und 10 T2I-Modelle durch, darunter DALLE-3 und das neueste Modell SD-3.5-Large. Unser Ansatz verbessert nicht nur die Leistung der SOTA-Modelle um bis zu 3 Punkte, sondern verringert auch die Leistungsdifferenz zwischen schwächeren und stärkeren Modellen.
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}Summary
AI-Generated Summary