Espansione del Prompt per la Generazione Adattiva di Immagini da Testo

Abstract

I modelli di generazione da testo a immagine sono potenti ma difficili da utilizzare. Gli utenti elaborano prompt specifici per ottenere immagini migliori, sebbene le immagini possano risultare ripetitive. Questo articolo propone un framework di Prompt Expansion che aiuta gli utenti a generare immagini di alta qualità e diversificate con meno sforzo. Il modello di Prompt Expansion prende in input una query testuale e restituisce un insieme di prompt testuali espansi, ottimizzati in modo tale che, quando passati a un modello di generazione da testo a immagine, producano una maggiore varietà di immagini attraenti. Abbiamo condotto uno studio di valutazione umana che dimostra come le immagini generate tramite Prompt Expansion siano più esteticamente gradevoli e diversificate rispetto a quelle generate con metodi di base. In sintesi, questo articolo presenta un approccio innovativo ed efficace per migliorare l'esperienza di generazione da testo a immagine.

English

Text-to-image generation models are powerful but difficult to use. Users craft specific prompts to get better images, though the images can be repetitive. This paper proposes a Prompt Expansion framework that helps users generate high-quality, diverse images with less effort. The Prompt Expansion model takes a text query as input and outputs a set of expanded text prompts that are optimized such that when passed to a text-to-image model, generates a wider variety of appealing images. We conduct a human evaluation study that shows that images generated through Prompt Expansion are more aesthetically pleasing and diverse than those generated by baseline methods. Overall, this paper presents a novel and effective approach to improving the text-to-image generation experience.

Espansione del Prompt per la Generazione Adattiva di Immagini da Testo

Prompt Expansion for Adaptive Text-to-Image Generation

Abstract

Support