GraPE: Een Genereren-Plannen-Bewerken Framework voor Compositorische T2I Synthese
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
Auteurs: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
Samenvatting
Text-to-image (T2I) generatie heeft aanzienlijke vooruitgang gezien met diffusiemodellen, waardoor het mogelijk is om fotorealistische afbeeldingen te genereren van tekstprompts. Ondanks deze vooruitgang ondervinden bestaande methoden nog steeds uitdagingen bij het volgen van complexe tekstprompts, vooral die die compositorisch en meerstaps redeneren vereisen. Gezien dergelijke complexe instructies maken SOTA-modellen vaak fouten bij het nauwkeurig modelleren van objectkenmerken en de relaties daartussen. In dit werk presenteren we een alternatief paradigma voor T2I-synthese, waarbij de taak van complexe meerstaps generatie wordt opgesplitst in drie stappen: (a) Genereren: we genereren eerst een afbeelding met behulp van bestaande diffusiemodellen. (b) Plannen: we maken gebruik van Multi-Modale LLM's (MLLM's) om de fouten in de gegenereerde afbeelding te identificeren, uitgedrukt in termen van individuele objecten en hun eigenschappen, en produceren een reeks correctiestappen die nodig zijn in de vorm van een bewerkingsplan. (c) Bewerken: we maken gebruik van bestaande op tekst gebaseerde beeldbewerkingsmodellen om sequentieel ons bewerkingsplan uit te voeren over de gegenereerde afbeelding om de gewenste afbeelding te verkrijgen die trouw is aan de originele instructie. Onze benadering ontleent haar kracht aan het feit dat deze modulair van aard is, trainingvrij is en kan worden toegepast op elke combinatie van beeldgeneratie- en bewerkingsmodellen. Als extra bijdrage ontwikkelen we ook een model dat in staat is tot compositionele bewerking, wat verder helpt om de algehele nauwkeurigheid van onze voorgestelde benadering te verbeteren. Onze methode ruilt flexibel inferentietijdrekenkracht in voor prestaties op compositorische tekstprompts. We voeren uitgebreide experimentele evaluatie uit over 3 benchmarks en 10 T2I-modellen, waaronder DALLE-3 en de nieuwste - SD-3.5-Large. Onze benadering verbetert niet alleen de prestaties van de SOTA-modellen, met maximaal 3 punten, maar verkleint ook het prestatieverschil tussen zwakkere en sterkere modellen.
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}