ChatPaper.aiChatPaper

NeuroPrompts: Um Framework Adaptativo para Otimizar Prompts na Geração de Texto para Imagem

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

November 20, 2023
Autores: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI

Resumo

Apesar dos impressionantes avanços recentes nos modelos de difusão de texto para imagem, a obtenção de imagens de alta qualidade frequentemente requer engenharia de prompts por humanos que desenvolveram expertise em seu uso. Neste trabalho, apresentamos o NeuroPrompts, um framework adaptativo que aprimora automaticamente o prompt de um usuário para melhorar a qualidade das gerações produzidas por modelos de texto para imagem. Nosso framework utiliza decodificação de texto com restrições, empregando um modelo de linguagem pré-treinado que foi adaptado para gerar prompts semelhantes aos produzidos por engenheiros de prompt humanos. Essa abordagem permite gerações de texto para imagem de maior qualidade e oferece controle ao usuário sobre características estilísticas por meio da especificação de conjuntos de restrições. Demonstramos a utilidade do nosso framework criando uma aplicação interativa para aprimoramento de prompts e geração de imagens usando o Stable Diffusion. Além disso, conduzimos experimentos utilizando um grande conjunto de dados de prompts elaborados por humanos para geração de texto para imagem e mostramos que nossa abordagem produz automaticamente prompts aprimorados que resultam em qualidade de imagem superior. Disponibilizamos publicamente nosso código, um vídeo demonstrativo e uma instância ao vivo do NeuroPrompts.
English
Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
PDF263February 8, 2026