ChatPaper.aiChatPaper

NeuroPrompts: Ein adaptiver Rahmen zur Optimierung von Prompts für die Text-zu-Bild-Generierung

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

November 20, 2023
Autoren: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI

Zusammenfassung

Trotz beeindruckender Fortschritte in Text-zu-Bild-Diffusionsmodellen erfordert die Erzeugung hochwertiger Bilder oft das Prompt-Engineering durch erfahrene Benutzer, die Expertise in deren Anwendung entwickelt haben. In dieser Arbeit stellen wir NeuroPrompts vor, ein adaptives Framework, das automatisch die Eingabeaufforderungen eines Benutzers verbessert, um die Qualität der von Text-zu-Bild-Modellen erzeugten Bilder zu steigern. Unser Framework nutzt eingeschränkte Textdekodierung mit einem vortrainierten Sprachmodell, das angepasst wurde, um Eingabeaufforderungen zu generieren, die denen von menschlichen Prompt-Ingenieuren ähneln. Dieser Ansatz ermöglicht qualitativ hochwertigere Text-zu-Bild-Generierungen und bietet Benutzern Kontrolle über stilistische Merkmale durch die Spezifikation von Einschränkungen. Wir demonstrieren den Nutzen unseres Frameworks durch die Entwicklung einer interaktiven Anwendung zur Prompt-Verbesserung und Bildgenerierung mit Stable Diffusion. Zusätzlich führen wir Experimente mit einem umfangreichen Datensatz von menschlich erstellten Eingabeaufforderungen für die Text-zu-Bild-Generierung durch und zeigen, dass unser Ansatz automatisch verbesserte Eingabeaufforderungen erzeugt, die zu überlegener Bildqualität führen. Wir stellen unseren Code, ein Screencast-Video-Demo und eine Live-Demo-Instanz von NeuroPrompts öffentlich zur Verfügung.
English
Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code, a screencast video demo and a live demo instance of NeuroPrompts publicly available.
PDF273December 15, 2024