Generación Controlable de Texto a Imagen con GPT-4
Controllable Text-to-Image Generation with GPT-4
May 29, 2023
Autores: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI
Resumen
Los modelos actuales de generación de texto a imagen a menudo tienen dificultades para seguir instrucciones textuales, especialmente aquellas que requieren razonamiento espacial. Por otro lado, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como GPT-4, han demostrado una precisión notable en la generación de fragmentos de código para representar gráficamente entradas de texto, por ejemplo, mediante TikZ. En este trabajo, presentamos Control-GPT para guiar las canalizaciones de texto a imagen basadas en difusión con bosquejos programáticos generados por GPT-4, mejorando su capacidad para seguir instrucciones. Control-GPT funciona consultando a GPT-4 para que escriba código TikZ, y los bosquejos generados se utilizan como referencias junto con las instrucciones textuales para que los modelos de difusión (por ejemplo, ControlNet) generen imágenes fotorrealistas. Un desafío importante para entrenar nuestra canalización es la falta de un conjunto de datos que contenga texto, imágenes y bosquejos alineados. Abordamos este problema convirtiendo las máscaras de instancia en conjuntos de datos existentes en polígonos para imitar los bosquejos utilizados en el momento de la prueba. Como resultado, Control-GPT aumenta significativamente la controlabilidad de la generación de imágenes. Establece un nuevo estado del arte en la generación de disposición espacial y posicionamiento de objetos y mejora el control de los usuarios sobre las posiciones, tamaños, etc., de los objetos, casi duplicando la precisión de los modelos anteriores. Nuestro trabajo, como un primer intento, muestra el potencial de emplear LLMs para mejorar el rendimiento en tareas de visión por computadora.
English
Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.