Generazione Controllabile di Immagini da Testo con GPT-4
Controllable Text-to-Image Generation with GPT-4
May 29, 2023
Autori: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI
Abstract
I modelli attuali di generazione di immagini da testo spesso faticano a seguire le istruzioni testuali, specialmente quelle che richiedono ragionamento spaziale. D'altra parte, i Large Language Models (LLM), come GPT-4, hanno dimostrato una precisione notevole nella generazione di frammenti di codice per rappresentare graficamente input testuali, ad esempio tramite TikZ. In questo lavoro, introduciamo Control-GPT per guidare le pipeline di generazione di immagini basate su diffusione con schizzi programmatici generati da GPT-4, migliorando la loro capacità di seguire le istruzioni. Control-GPT funziona interrogando GPT-4 per scrivere codice TikZ, e gli schizzi generati vengono utilizzati come riferimenti insieme alle istruzioni testuali per i modelli di diffusione (ad esempio, ControlNet) per generare immagini foto-realistiche. Una delle principali sfide nell'addestramento della nostra pipeline è la mancanza di un dataset contenente testo, immagini e schizzi allineati. Affrontiamo il problema convertendo le maschere delle istanze nei dataset esistenti in poligoni per simulare gli schizzi utilizzati durante il test. Di conseguenza, Control-GPT aumenta notevolmente la controllabilità della generazione di immagini. Stabilisce un nuovo stato dell'arte nella generazione di disposizioni spaziali e posizionamento di oggetti e migliora il controllo degli utenti su posizioni, dimensioni degli oggetti, ecc., quasi raddoppiando l'accuratezza dei modelli precedenti. Il nostro lavoro, come primo tentativo, mostra il potenziale di impiegare LLM per migliorare le prestazioni nei compiti di visione artificiale.
English
Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.