ChatPaper.aiChatPaper

NeuroPrompts: Un Marco Adaptativo para Optimizar Prompts en la Generación de Texto a Imagen

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

November 20, 2023
Autores: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI

Resumen

A pesar de los impresionantes avances recientes en los modelos de difusión de texto a imagen, obtener imágenes de alta calidad a menudo requiere ingeniería de prompts por parte de humanos que han desarrollado experiencia en su uso. En este trabajo, presentamos NeuroPrompts, un marco adaptativo que mejora automáticamente el prompt de un usuario para elevar la calidad de las generaciones producidas por modelos de texto a imagen. Nuestro marco utiliza decodificación de texto restringida con un modelo de lenguaje preentrenado que ha sido adaptado para generar prompts similares a los producidos por ingenieros de prompts humanos. Este enfoque permite generaciones de texto a imagen de mayor calidad y brinda al usuario control sobre características estilísticas mediante la especificación de un conjunto de restricciones. Demostramos la utilidad de nuestro marco creando una aplicación interactiva para la mejora de prompts y la generación de imágenes utilizando Stable Diffusion. Además, realizamos experimentos utilizando un gran conjunto de datos de prompts diseñados por humanos para la generación de texto a imagen y mostramos que nuestro enfoque produce automáticamente prompts mejorados que resultan en una calidad de imagen superior. Hacemos público nuestro código, un video demostrativo y una instancia en vivo de NeuroPrompts.
English
Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
PDF273December 15, 2024