VMix: Улучшение модели диффузии текста в изображение с помощью кросс-внимания Управление смешиванием

Аннотация

Хотя модели диффузии проявляют выдающиеся способности в генерации текста к изображению, они все еще могут не справиться с созданием высоко-эстетичных изображений. Более конкретно, существует разрыв между созданными изображениями и реальными эстетичными изображениями в более детализированных измерениях, включая цвет, освещение, композицию и т. д. В данной статье мы предлагаем адаптер Cross-Attention Value Mixing Control (VMix), который является устройством для улучшения качества созданных изображений, сохраняя при этом общность по визуальным концепциям, путем (1) разделения входного текстового подсказывания на описание контента и эстетическое описание путем инициализации эстетического вложения и (2) интеграции эстетических условий в процесс денойзинга через значение-смешанное кросс-внимание, сеть соединена с помощью линейных слоев с нулевой инициализацией. Наш ключевой инсайт заключается в улучшении эстетического представления существующих моделей диффузии путем разработки более высококачественного метода управления условиями, сохраняя при этом соответствие изображения и текста. Благодаря нашему тщательному дизайну, VMix достаточно гибок для применения к моделям сообщества для лучшей визуальной производительности без повторного обучения. Для проверки эффективности нашего метода мы провели обширные эксперименты, показывающие, что VMix превосходит другие передовые методы и совместим с другими модулями сообщества (например, LoRA, ControlNet и IPAdapter) для генерации изображений. Страница проекта находится по адресу https://vmix-diffusion.github.io/VMix/.

English

While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.

VMix: Улучшение модели диффузии текста в изображение с помощью кросс-внимания Управление смешиванием

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Аннотация

Support