NeuroPrompts : Un cadre adaptatif pour optimiser les prompts dans la génération texte-image
NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation
November 20, 2023
Auteurs: Shachar Rosenman, Vasudev Lal, Phillip Howard
cs.AI
Résumé
Malgré les avancées impressionnantes récentes des modèles de diffusion texte-image,
l'obtention d'images de haute qualité nécessite souvent l'ingénierie de prompts par des humains
ayant développé une expertise dans leur utilisation. Dans ce travail, nous présentons NeuroPrompts,
un cadre adaptatif qui améliore automatiquement le prompt d'un utilisateur pour augmenter
la qualité des générations produites par les modèles texte-image. Notre cadre
utilise un décodage de texte contraint avec un modèle de langage pré-entraîné qui a été
adapté pour générer des prompts similaires à ceux produits par des ingénieurs de prompts humains.
Cette approche permet des générations texte-image de meilleure qualité et
offre un contrôle utilisateur sur les caractéristiques stylistiques via la spécification d'un ensemble de contraintes.
Nous démontrons l'utilité de notre cadre en créant une application interactive
pour l'amélioration de prompts et la génération d'images utilisant Stable Diffusion.
De plus, nous menons des expériences en utilisant un large ensemble de données de
prompts conçus par des humains pour la génération texte-image et montrons que notre
approche produit automatiquement des prompts améliorés qui aboutissent à une qualité d'image supérieure.
Nous rendons notre code, une vidéo de démonstration et une instance en ligne de NeuroPrompts publiquement disponibles.
English
Despite impressive recent advances in text-to-image diffusion models,
obtaining high-quality images often requires prompt engineering by humans who
have developed expertise in using them. In this work, we present NeuroPrompts,
an adaptive framework that automatically enhances a user's prompt to improve
the quality of generations produced by text-to-image models. Our framework
utilizes constrained text decoding with a pre-trained language model that has
been adapted to generate prompts similar to those produced by human prompt
engineers. This approach enables higher-quality text-to-image generations and
provides user control over stylistic features via constraint set specification.
We demonstrate the utility of our framework by creating an interactive
application for prompt enhancement and image generation using Stable Diffusion.
Additionally, we conduct experiments utilizing a large dataset of
human-engineered prompts for text-to-image generation and show that our
approach automatically produces enhanced prompts that result in superior image
quality. We make our code, a screencast video demo and a live demo instance of
NeuroPrompts publicly available.