Beheersbare Tekst-naar-Afbeelding Generatie met GPT-4
Controllable Text-to-Image Generation with GPT-4
May 29, 2023
Auteurs: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI
Samenvatting
Huidige tekst-naar-beeldgeneratiemodellen hebben vaak moeite met het opvolgen van tekstuele instructies, vooral wanneer ruimtelijk redeneren vereist is. Aan de andere kant hebben Large Language Models (LLMs), zoals GPT-4, opmerkelijke precisie getoond in het genereren van codefragmenten om tekstuele invoer grafisch weer te geven, bijvoorbeeld via TikZ. In dit werk introduceren we Control-GPT om diffusiegebaseerde tekst-naar-beeldpijplijnen te begeleiden met programmatische schetsen die door GPT-4 zijn gegenereerd, waardoor hun vermogen om instructies op te volgen wordt verbeterd. Control-GPT werkt door GPT-4 te bevragen om TikZ-code te schrijven, en de gegenereerde schetsen worden gebruikt als referenties naast de tekstinstructies voor diffusiemodellen (bijvoorbeeld ControlNet) om foto-realistische afbeeldingen te genereren. Een grote uitdaging bij het trainen van onze pijplijn is het ontbreken van een dataset die uitgelijnde tekst, afbeeldingen en schetsen bevat. We lossen dit probleem op door instantiemaskers in bestaande datasets om te zetten in polygonen om de schetsen die tijdens de testtijd worden gebruikt na te bootsen. Als resultaat verhoogt Control-GPT de beheersbaarheid van beeldgeneratie aanzienlijk. Het vestigt een nieuwe staat-van-de-kunst op het gebied van ruimtelijke ordening en objectpositionering en verbetert de controle van gebruikers over objectposities, groottes, enz., waardoor de nauwkeurigheid van eerdere modellen bijna verdubbelt. Ons werk, als een eerste poging, toont het potentieel van het inzetten van LLMs om de prestaties in computervisietaken te verbeteren.
English
Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.