VMix: Mejorando el Modelo de Difusión de Texto a Imagen con Atención Cruzada Control de Mezcla

Resumen

Si bien los modelos de difusión muestran talentos extraordinarios en la generación de texto a imagen, aún pueden fallar en generar imágenes altamente estéticas. Específicamente, todavía existe una brecha entre las imágenes generadas y las imágenes estéticas del mundo real en dimensiones más detalladas que incluyen color, iluminación, composición, etc. En este documento, proponemos el Adaptador de Control de Mezcla de Valor de Atención Cruzada (VMix), un adaptador estético plug-and-play, para mejorar la calidad de las imágenes generadas manteniendo la generalidad en conceptos visuales mediante (1) la disociación del texto de entrada en la descripción de contenido y descripción estética mediante la inicialización de la incrustación estética, y (2) la integración de condiciones estéticas en el proceso de eliminación de ruido a través de atención cruzada con mezcla de valores, con la red conectada por capas lineales inicializadas en cero. Nuestra idea clave es mejorar la presentación estética de los modelos de difusión existentes mediante el diseño de un método de control de condiciones superior, todo mientras se preserva la alineación imagen-texto. A través de nuestro diseño meticuloso, VMix es lo suficientemente flexible como para aplicarse a modelos comunitarios para obtener un mejor rendimiento visual sin necesidad de volver a entrenar. Para validar la efectividad de nuestro método, realizamos experimentos extensos, demostrando que VMix supera a otros métodos de vanguardia y es compatible con otros módulos comunitarios (por ejemplo, LoRA, ControlNet y IPAdapter) para la generación de imágenes. La página del proyecto es https://vmix-diffusion.github.io/VMix/.

English

While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.

VMix: Mejorando el Modelo de Difusión de Texto a Imagen con Atención Cruzada Control de Mezcla

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Resumen

Support