Улучшение согласованности текст-изображение с помощью автоматической оптимизации подсказок.
Improving Text-to-Image Consistency via Automatic Prompt Optimization
March 26, 2024
Авторы: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
Аннотация
Впечатляющие достижения в области генеративных моделей текст-в-изображение (T2I) привели к появлению множества высокопроизводительных моделей, способных генерировать эстетически привлекательные, фотореалистичные изображения. Несмотря на прогресс, эти модели все еще испытывают трудности в создании изображений, которые согласуются с входным запросом, часто не улавливая правильно количество объектов, их отношения и атрибуты. Существующие решения для улучшения согласованности между запросом и изображением сталкиваются с следующими проблемами: (1) они часто требуют донастройки модели, (2) они сосредотачиваются только на близких образцах запросов, и (3) они подвержены невыгодным компромиссам между качеством изображения, разнообразием представления и согласованностью между запросом и изображением. В данной статье мы решаем эти проблемы и представляем рамочную оптимизацию T2I посредством запросов, OPT2I, которая использует большую языковую модель (LLM) для улучшения согласованности между запросом и изображением в моделях T2I. Наша рамочная работа начинается с запроса пользователя и итеративно генерирует пересмотренные запросы с целью максимизации оценки согласованности. Наше обширное валидационное исследование на двух наборах данных, MSCOCO и PartiPrompts, показывает, что OPT2I может увеличить начальную оценку согласованности на до 24.9% в терминах оценки DSG, сохраняя FID и увеличивая соответствие между сгенерированными и реальными данными. Наша работа прокладывает путь к созданию более надежных и устойчивых систем T2I путем использования мощи LLM.
English
Impressive advances in text-to-image (T2I) generative models have yielded a
plethora of high performing models which are able to generate aesthetically
appealing, photorealistic images. Despite the progress, these models still
struggle to produce images that are consistent with the input prompt,
oftentimes failing to capture object quantities, relations and attributes
properly. Existing solutions to improve prompt-image consistency suffer from
the following challenges: (1) they oftentimes require model fine-tuning, (2)
they only focus on nearby prompt samples, and (3) they are affected by
unfavorable trade-offs among image quality, representation diversity, and
prompt-image consistency. In this paper, we address these challenges and
introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a
large language model (LLM) to improve prompt-image consistency in T2I models.
Our framework starts from a user prompt and iteratively generates revised
prompts with the goal of maximizing a consistency score. Our extensive
validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost
the initial consistency score by up to 24.9% in terms of DSG score while
preserving the FID and increasing the recall between generated and real data.
Our work paves the way toward building more reliable and robust T2I systems by
harnessing the power of LLMs.