ChatPaper.aiChatPaper

DreamDistribution: Aprendizado de Distribuição de Prompts para Modelos de Difusão Texto-para-Imagem

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

December 21, 2023
Autores: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI

Resumo

A popularização dos modelos de difusão Text-to-Image (T2I) possibilita a geração de imagens de alta qualidade a partir de descrições textuais. No entanto, gerar imagens personalizadas e diversas com atributos visuais de referência continua sendo um desafio. Este trabalho foca na personalização de modelos de difusão T2I em um nível mais abstrato de conceito ou categoria, adaptando características comuns de um conjunto de imagens de referência enquanto cria novas instâncias com variações suficientes. Introduzimos uma solução que permite a um modelo de difusão T2I pré-treinado aprender um conjunto de prompts suaves, possibilitando a geração de novas imagens ao amostrar prompts da distribuição aprendida. Esses prompts oferecem capacidades de edição guiada por texto e flexibilidade adicional no controle de variação e mistura entre múltiplas distribuições. Também mostramos a adaptabilidade da distribuição de prompts aprendida para outras tarefas, como text-to-3D. Por fim, demonstramos a eficácia de nossa abordagem por meio de análise quantitativa, incluindo avaliação automática e avaliação humana. Site do projeto: https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
PDF121February 8, 2026