ChatPaper.aiChatPaper

Управляемая генерация изображений на основе текста с использованием GPT-4

Controllable Text-to-Image Generation with GPT-4

May 29, 2023
Авторы: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
cs.AI

Аннотация

Современные модели генерации изображений на основе текста часто испытывают трудности с выполнением текстовых инструкций, особенно тех, которые требуют пространственного мышления. С другой стороны, крупные языковые модели (LLM), такие как GPT-4, продемонстрировали выдающуюся точность в генерации фрагментов кода для графического представления текстовых входных данных, например, с использованием TikZ. В данной работе мы представляем Control-GPT, который направляет диффузионные текстово-изобразительные конвейеры с помощью программных эскизов, созданных GPT-4, улучшая их способность следовать инструкциям. Control-GPT работает, запрашивая GPT-4 для написания кода TikZ, а сгенерированные эскизы используются в качестве ориентиров вместе с текстовыми инструкциями для диффузионных моделей (например, ControlNet) для создания фотореалистичных изображений. Одной из основных проблем при обучении нашего конвейера является отсутствие набора данных, содержащего согласованные текст, изображения и эскизы. Мы решаем эту проблему, преобразуя маски экземпляров в существующих наборах данных в полигоны, чтобы имитировать эскизы, используемые во время тестирования. В результате Control-GPT значительно повышает управляемость генерации изображений. Он устанавливает новый стандарт в области генерации пространственного расположения и позиционирования объектов и улучшает контроль пользователей над позициями, размерами объектов и т.д., почти удваивая точность предыдущих моделей. Наша работа, как первая попытка, демонстрирует потенциал использования LLM для повышения производительности в задачах компьютерного зрения.
English
Current text-to-image generation models often struggle to follow textual instructions, especially the ones requiring spatial reasoning. On the other hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable precision in generating code snippets for sketching out text inputs graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide the diffusion-based text-to-image pipelines with programmatic sketches generated by GPT-4, enhancing their abilities for instruction following. Control-GPT works by querying GPT-4 to write TikZ code, and the generated sketches are used as references alongside the text instructions for diffusion models (e.g., ControlNet) to generate photo-realistic images. One major challenge to training our pipeline is the lack of a dataset containing aligned text, images, and sketches. We address the issue by converting instance masks in existing datasets into polygons to mimic the sketches used at test time. As a result, Control-GPT greatly boosts the controllability of image generation. It establishes a new state-of-art on the spatial arrangement and object positioning generation and enhances users' control of object positions, sizes, etc., nearly doubling the accuracy of prior models. Our work, as a first attempt, shows the potential for employing LLMs to enhance the performance in computer vision tasks.
PDF31December 15, 2024