ChatPaper.aiChatPaper

NeuroPrompts: Адаптивная платформа для оптимизации промптов в генерации изображений на основе текста

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

November 20, 2023
Авторы: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI

Аннотация

Несмотря на впечатляющие недавние достижения в моделях диффузии для генерации изображений по тексту, получение высококачественных изображений часто требует инженерной работы с запросами (prompt engineering) со стороны людей, которые развили экспертизу в их использовании. В данной работе мы представляем NeuroPrompts — адаптивную систему, которая автоматически улучшает пользовательский запрос для повышения качества генераций, создаваемых моделями текста в изображение. Наша система использует ограниченное декодирование текста с помощью предобученной языковой модели, адаптированной для генерации запросов, похожих на те, что создают эксперты по инженерии запросов. Этот подход позволяет получать более качественные результаты генерации изображений по тексту и предоставляет пользователю контроль над стилистическими особенностями через задание ограничений. Мы демонстрируем полезность нашей системы, создавая интерактивное приложение для улучшения запросов и генерации изображений с использованием Stable Diffusion. Кроме того, мы проводим эксперименты с использованием большого набора данных запросов, созданных людьми для генерации изображений по тексту, и показываем, что наш подход автоматически создает улучшенные запросы, которые приводят к превосходному качеству изображений. Мы делаем наш код, демонстрационное видео и работающий экземпляр NeuroPrompts общедоступными.
English
Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
PDF273December 15, 2024