ChatPaper.aiChatPaper

NeuroPrompts: Un Framework Adattivo per Ottimizzare i Prompt nella Generazione di Immagini da Testo

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

November 20, 2023
Autori: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI

Abstract

Nonostante i recenti e impressionanti progressi nei modelli di diffusione testo-immagine, ottenere immagini di alta qualità spesso richiede l'ingegnerizzazione dei prompt da parte di esseri umani che hanno sviluppato competenze nel loro utilizzo. In questo lavoro, presentiamo NeuroPrompts, un framework adattivo che migliora automaticamente il prompt di un utente per aumentare la qualità delle generazioni prodotte dai modelli testo-immagine. Il nostro framework utilizza il decoding testuale vincolato con un modello linguistico pre-addestrato che è stato adattato per generare prompt simili a quelli prodotti da ingegneri di prompt umani. Questo approccio consente generazioni testo-immagine di qualità superiore e offre all'utente il controllo sulle caratteristiche stilistiche attraverso la specificazione di un insieme di vincoli. Dimostriamo l'utilità del nostro framework creando un'applicazione interattiva per il miglioramento dei prompt e la generazione di immagini utilizzando Stable Diffusion. Inoltre, conduciamo esperimenti utilizzando un ampio dataset di prompt ingegnerizzati da esseri umani per la generazione testo-immagine e mostriamo che il nostro approccio produce automaticamente prompt migliorati che risultano in una qualità dell'immagine superiore. Rendiamo pubblicamente disponibili il nostro codice, un video dimostrativo e un'istanza live demo di NeuroPrompts.
English
Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
PDF263February 8, 2026