ChatPaper.aiChatPaper

DreamDistribution: Обучение распределения промптов для диффузионных моделей текст-в-изображение

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

December 21, 2023
Авторы: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI

Аннотация

Популяризация диффузионных моделей "текст-изображение" (Text-to-Image, T2I) позволяет генерировать высококачественные изображения на основе текстовых описаний. Однако создание разнообразных персонализированных изображений с учетом визуальных атрибутов из референсных данных остается сложной задачей. В данной работе основное внимание уделяется персонализации T2I диффузионных моделей на уровне абстрактных концепций или категорий, адаптируя общие черты из набора референсных изображений и создавая новые экземпляры с достаточным уровнем вариативности. Мы предлагаем решение, которое позволяет предобученной T2I диффузионной модели изучить набор "мягких" промптов, что дает возможность генерировать новые изображения путем выборки промптов из изученного распределения. Эти промпты обеспечивают возможности текстового редактирования и дополнительную гибкость в управлении вариациями и смешением между несколькими распределениями. Мы также демонстрируем адаптируемость изученного распределения промптов к другим задачам, таким как "текст-3D". Наконец, мы подтверждаем эффективность нашего подхода с помощью количественного анализа, включая автоматическую оценку и экспертные оценки. Проектный сайт: https://briannlongzhao.github.io/DreamDistribution.
English
The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
PDF121December 15, 2024