ChatPaper.aiChatPaper

DreamDistribution: Apprendimento della Distribuzione dei Prompt per Modelli di Diffusione Testo-Immagine

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

December 21, 2023
Autori: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI

Abstract

La diffusione dei modelli Text-to-Image (T2I) ha reso possibile la generazione di immagini di alta qualità a partire da descrizioni testuali. Tuttavia, generare immagini personalizzate e diversificate con attributi visivi di riferimento rimane una sfida. Questo lavoro si concentra sulla personalizzazione dei modelli T2I a un livello più astratto, adattando le caratteristiche comuni di un insieme di immagini di riferimento mentre si creano nuove istanze con variazioni sufficienti. Introduciamo una soluzione che consente a un modello T2I preaddestrato di apprendere un insieme di prompt soft, permettendo la generazione di nuove immagini campionando i prompt dalla distribuzione appresa. Questi prompt offrono capacità di modifica guidata dal testo e una maggiore flessibilità nel controllare la variazione e la miscelazione tra più distribuzioni. Mostriamo inoltre l'adattabilità della distribuzione dei prompt appresi ad altre attività, come il text-to-3D. Infine, dimostriamo l'efficacia del nostro approccio attraverso analisi quantitative, inclusa valutazione automatica e valutazione umana. Sito del progetto: https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
PDF121February 8, 2026