ChatPaper.aiChatPaper

DreamDistribution: Aprendizaje de Distribución de Prompts para Modelos de Difusión de Texto a Imagen

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

December 21, 2023
Autores: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI

Resumen

La popularización de los modelos de difusión de Texto a Imagen (T2I) permite la generación de imágenes de alta calidad a partir de descripciones textuales. Sin embargo, generar imágenes personalizadas diversas con atributos visuales de referencia sigue siendo un desafío. Este trabajo se centra en personalizar los modelos de difusión T2I a un nivel más abstracto de concepto o categoría, adaptando las características comunes de un conjunto de imágenes de referencia mientras se crean nuevas instancias con variaciones suficientes. Introducimos una solución que permite a un modelo de difusión T2I preentrenado aprender un conjunto de indicaciones suaves (soft prompts), lo que posibilita la generación de imágenes novedosas al muestrear indicaciones de la distribución aprendida. Estas indicaciones ofrecen capacidades de edición guiada por texto y una flexibilidad adicional para controlar la variación y la mezcla entre múltiples distribuciones. También mostramos la adaptabilidad de la distribución de indicaciones aprendida a otras tareas, como la generación de texto a 3D. Finalmente, demostramos la efectividad de nuestro enfoque a través de un análisis cuantitativo que incluye evaluación automática y evaluación humana. Sitio web del proyecto: https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
PDF121December 15, 2024