VMix: Mejorando el Modelo de Difusión de Texto a Imagen con Atención Cruzada Control de Mezcla
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
December 30, 2024
Autores: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI
Resumen
Si bien los modelos de difusión muestran talentos extraordinarios en la generación de texto a imagen, aún pueden fallar en generar imágenes altamente estéticas. Específicamente, todavía existe una brecha entre las imágenes generadas y las imágenes estéticas del mundo real en dimensiones más detalladas que incluyen color, iluminación, composición, etc. En este documento, proponemos el Adaptador de Control de Mezcla de Valor de Atención Cruzada (VMix), un adaptador estético plug-and-play, para mejorar la calidad de las imágenes generadas manteniendo la generalidad en conceptos visuales mediante (1) la disociación del texto de entrada en la descripción de contenido y descripción estética mediante la inicialización de la incrustación estética, y (2) la integración de condiciones estéticas en el proceso de eliminación de ruido a través de atención cruzada con mezcla de valores, con la red conectada por capas lineales inicializadas en cero. Nuestra idea clave es mejorar la presentación estética de los modelos de difusión existentes mediante el diseño de un método de control de condiciones superior, todo mientras se preserva la alineación imagen-texto. A través de nuestro diseño meticuloso, VMix es lo suficientemente flexible como para aplicarse a modelos comunitarios para obtener un mejor rendimiento visual sin necesidad de volver a entrenar. Para validar la efectividad de nuestro método, realizamos experimentos extensos, demostrando que VMix supera a otros métodos de vanguardia y es compatible con otros módulos comunitarios (por ejemplo, LoRA, ControlNet y IPAdapter) para la generación de imágenes. La página del proyecto es https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image
generation, they may still fail to generate highly aesthetic images. More
specifically, there is still a gap between the generated images and the
real-world aesthetic images in finer-grained dimensions including color,
lighting, composition, etc. In this paper, we propose Cross-Attention Value
Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade
the quality of generated images while maintaining generality across visual
concepts by (1) disentangling the input text prompt into the content
description and aesthetic description by the initialization of aesthetic
embedding, and (2) integrating aesthetic conditions into the denoising process
through value-mixed cross-attention, with the network connected by
zero-initialized linear layers. Our key insight is to enhance the aesthetic
presentation of existing diffusion models by designing a superior condition
control method, all while preserving the image-text alignment. Through our
meticulous design, VMix is flexible enough to be applied to community models
for better visual performance without retraining. To validate the effectiveness
of our method, we conducted extensive experiments, showing that VMix
outperforms other state-of-the-art methods and is compatible with other
community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation.
The project page is https://vmix-diffusion.github.io/VMix/.Summary
AI-Generated Summary