Steuerbare Text-zu-Bild-Generierung mit GPT-4
Controllable Text-to-Image Generation with GPT-4
May 29, 2023
Autoren: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild-Generierungsmodelle haben oft Schwierigkeiten, textuelle Anweisungen zu befolgen, insbesondere solche, die räumliches Denken erfordern. Auf der anderen Seite haben Large Language Models (LLMs) wie GPT-4 eine bemerkenswerte Präzision bei der Generierung von Code-Snippets gezeigt, um Texteingaben grafisch darzustellen, z. B. über TikZ. In dieser Arbeit stellen wir Control-GPT vor, um diffusionsbasierte Text-zu-Bild-Pipelines mit programmatischen Skizzen zu steuern, die von GPT-4 generiert werden, und so ihre Fähigkeiten zur Befolgung von Anweisungen zu verbessern. Control-GPT funktioniert, indem GPT-4 abgefragt wird, TikZ-Code zu schreiben, und die generierten Skizzen als Referenzen neben den textuellen Anweisungen für Diffusionsmodelle (z. B. ControlNet) verwendet werden, um fotorealistische Bilder zu erzeugen. Eine große Herausforderung beim Training unserer Pipeline ist das Fehlen eines Datensatzes, der ausgerichteten Text, Bilder und Skizzen enthält. Wir lösen dieses Problem, indem wir Instanzmasken in bestehenden Datensätzen in Polygone umwandeln, um die Skizzen zu imitieren, die zur Testzeit verwendet werden. Dadurch steigert Control-GPT die Kontrollierbarkeit der Bildgenerierung erheblich. Es setzt einen neuen Maßstab für die räumliche Anordnung und Objektpositionierung und verbessert die Benutzerkontrolle über Objektpositionen, Größen usw., wodurch die Genauigkeit früherer Modelle nahezu verdoppelt wird. Unsere Arbeit zeigt als erster Versuch das Potenzial des Einsatzes von LLMs zur Verbesserung der Leistung in Computer-Vision-Aufgaben.
English
Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.