ChatPaper.aiChatPaper

NeuroPrompts: Een Adaptief Framework voor het Optimaliseren van Prompts bij Tekst-naar-Beeld Generatie

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

November 20, 2023
Auteurs: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI

Samenvatting

Ondanks indrukwekkende recente vooruitgang in tekst-naar-beeld diffusiemodellen, vereist het verkrijgen van hoogwaardige afbeeldingen vaak prompt engineering door mensen die expertise hebben ontwikkeld in het gebruik ervan. In dit werk presenteren we NeuroPrompts, een adaptief framework dat automatisch de prompt van een gebruiker verbetert om de kwaliteit van de gegenereerde afbeeldingen door tekst-naar-beeld modellen te verhogen. Ons framework maakt gebruik van beperkte tekstdecodering met een vooraf getraind taalmodel dat is aangepast om prompts te genereren die vergelijkbaar zijn met die van menselijke prompt engineers. Deze aanpak maakt hogere kwaliteit tekst-naar-beeld generaties mogelijk en biedt gebruikers controle over stilistische kenmerken via specificatie van beperkingssets. We demonstreren de bruikbaarheid van ons framework door een interactieve applicatie te creëren voor promptverbetering en beeldgeneratie met behulp van Stable Diffusion. Daarnaast voeren we experimenten uit met een grote dataset van door mensen gemaakte prompts voor tekst-naar-beeld generatie en tonen we aan dat onze aanpak automatisch verbeterde prompts produceert die resulteren in superieure beeldkwaliteit. We maken onze code, een screencast videodemo en een live demo-instantie van NeuroPrompts publiekelijk beschikbaar.
English
Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
PDF263February 8, 2026