Génération Contrôlée d'Images à partir de Texte avec GPT-4
Controllable Text-to-Image Generation with GPT-4
May 29, 2023
Auteurs: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI
Résumé
Les modèles actuels de génération d'images à partir de texte rencontrent souvent des difficultés à suivre les instructions textuelles, en particulier celles nécessitant un raisonnement spatial. D'un autre côté, les modèles de langage de grande envergure (LLMs), tels que GPT-4, ont démontré une précision remarquable dans la génération de snippets de code pour esquisser graphiquement des entrées textuelles, par exemple via TikZ. Dans ce travail, nous introduisons Control-GPT pour guider les pipelines de génération d'images à partir de texte basés sur la diffusion avec des esquisses programmatiques générées par GPT-4, améliorant ainsi leurs capacités à suivre les instructions. Control-GPT fonctionne en interrogeant GPT-4 pour écrire du code TikZ, et les esquisses générées sont utilisées comme références aux côtés des instructions textuelles pour les modèles de diffusion (par exemple, ControlNet) afin de générer des images photo-réalistes. Un défi majeur pour l'entraînement de notre pipeline est l'absence d'un ensemble de données contenant du texte, des images et des esquisses alignés. Nous abordons ce problème en convertissant les masques d'instance dans les ensembles de données existants en polygones pour imiter les esquisses utilisées au moment du test. En conséquence, Control-GPT améliore considérablement la contrôlabilité de la génération d'images. Il établit un nouvel état de l'art en matière de génération d'arrangement spatial et de positionnement d'objets et améliore le contrôle des utilisateurs sur les positions, les tailles, etc., des objets, doublant presque la précision des modèles précédents. Notre travail, en tant que première tentative, montre le potentiel d'utiliser les LLMs pour améliorer les performances dans les tâches de vision par ordinateur.
English
Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.