Geração Controlável de Texto para Imagem com GPT-4
Controllable Text-to-Image Generation with GPT-4
May 29, 2023
Autores: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI
Resumo
Os modelos atuais de geração de imagens a partir de texto frequentemente têm dificuldade em seguir instruções textuais, especialmente aquelas que exigem raciocínio espacial. Por outro lado, os Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4, demonstraram uma precisão notável na geração de trechos de código para esboçar entradas textuais graficamente, por exemplo, via TikZ. Neste trabalho, introduzimos o Control-GPT para orientar os pipelines de geração de imagens baseados em difusão com esboços programáticos gerados pelo GPT-4, aprimorando suas habilidades de seguir instruções. O Control-GPT funciona consultando o GPT-4 para escrever código TikZ, e os esboços gerados são usados como referências juntamente com as instruções textuais para modelos de difusão (por exemplo, ControlNet) gerarem imagens foto-realistas. Um grande desafio para treinar nosso pipeline é a falta de um conjunto de dados contendo texto, imagens e esboços alinhados. Resolvemos esse problema convertendo máscaras de instância em conjuntos de dados existentes em polígonos para imitar os esboços usados no momento do teste. Como resultado, o Control-GPT aumenta significativamente a controlabilidade da geração de imagens. Ele estabelece um novo estado da arte na geração de arranjos espaciais e posicionamento de objetos e aprimora o controle dos usuários sobre posições, tamanhos etc. de objetos, quase dobrando a precisão dos modelos anteriores. Nosso trabalho, como uma primeira tentativa, mostra o potencial de empregar LLMs para melhorar o desempenho em tarefas de visão computacional.
English
Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.