ChatPaper.aiChatPaper

DreamDistribution : Apprentissage de la distribution des prompts pour les modèles de diffusion texte-image

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

December 21, 2023
Auteurs: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI

Résumé

La popularisation des modèles de diffusion Texte-à-Image (T2I) permet la génération d'images de haute qualité à partir de descriptions textuelles. Cependant, générer des images personnalisées et diversifiées avec des attributs visuels de référence reste un défi. Ce travail se concentre sur la personnalisation des modèles de diffusion T2I à un niveau plus abstrait, celui des concepts ou catégories, en adaptant les points communs d'un ensemble d'images de référence tout en créant de nouvelles instances avec des variations suffisantes. Nous proposons une solution permettant à un modèle de diffusion T2I pré-entraîné d'apprendre un ensemble de prompts souples, ce qui facilite la génération de nouvelles images en échantillonnant des prompts à partir de la distribution apprise. Ces prompts offrent des capacités d'édition guidée par le texte et une flexibilité supplémentaire pour contrôler les variations et les mélanges entre plusieurs distributions. Nous montrons également l'adaptabilité de la distribution de prompts apprise à d'autres tâches, comme la génération Texte-à-3D. Enfin, nous démontrons l'efficacité de notre approche à travers une analyse quantitative incluant une évaluation automatique et une évaluation humaine. Site du projet : https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
PDF121December 15, 2024