VMix: Улучшение модели диффузии текста в изображение с помощью кросс-внимания Управление смешиванием
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
December 30, 2024
Авторы: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI
Аннотация
Хотя модели диффузии проявляют выдающиеся способности в генерации текста к изображению, они все еще могут не справиться с созданием высоко-эстетичных изображений. Более конкретно, существует разрыв между созданными изображениями и реальными эстетичными изображениями в более детализированных измерениях, включая цвет, освещение, композицию и т. д. В данной статье мы предлагаем адаптер Cross-Attention Value Mixing Control (VMix), который является устройством для улучшения качества созданных изображений, сохраняя при этом общность по визуальным концепциям, путем (1) разделения входного текстового подсказывания на описание контента и эстетическое описание путем инициализации эстетического вложения и (2) интеграции эстетических условий в процесс денойзинга через значение-смешанное кросс-внимание, сеть соединена с помощью линейных слоев с нулевой инициализацией. Наш ключевой инсайт заключается в улучшении эстетического представления существующих моделей диффузии путем разработки более высококачественного метода управления условиями, сохраняя при этом соответствие изображения и текста. Благодаря нашему тщательному дизайну, VMix достаточно гибок для применения к моделям сообщества для лучшей визуальной производительности без повторного обучения. Для проверки эффективности нашего метода мы провели обширные эксперименты, показывающие, что VMix превосходит другие передовые методы и совместим с другими модулями сообщества (например, LoRA, ControlNet и IPAdapter) для генерации изображений. Страница проекта находится по адресу https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image
generation, they may still fail to generate highly aesthetic images. More
specifically, there is still a gap between the generated images and the
real-world aesthetic images in finer-grained dimensions including color,
lighting, composition, etc. In this paper, we propose Cross-Attention Value
Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade
the quality of generated images while maintaining generality across visual
concepts by (1) disentangling the input text prompt into the content
description and aesthetic description by the initialization of aesthetic
embedding, and (2) integrating aesthetic conditions into the denoising process
through value-mixed cross-attention, with the network connected by
zero-initialized linear layers. Our key insight is to enhance the aesthetic
presentation of existing diffusion models by designing a superior condition
control method, all while preserving the image-text alignment. Through our
meticulous design, VMix is flexible enough to be applied to community models
for better visual performance without retraining. To validate the effectiveness
of our method, we conducted extensive experiments, showing that VMix
outperforms other state-of-the-art methods and is compatible with other
community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation.
The project page is https://vmix-diffusion.github.io/VMix/.Summary
AI-Generated Summary