ChatPaper.aiChatPaper

VMix : Amélioration du modèle de diffusion texte-image avec attention croisée Contrôle de mélange

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

December 30, 2024
Auteurs: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI

Résumé

Alors que les modèles de diffusion montrent des talents extraordinaires dans la génération texte-image, ils peuvent encore échouer à produire des images très esthétiques. Plus précisément, il existe toujours un écart entre les images générées et les images esthétiques du monde réel dans des dimensions plus fines incluant la couleur, l'éclairage, la composition, etc. Dans cet article, nous proposons un adaptateur de contrôle de mélange de valeurs d'attention croisée (VMix), un adaptateur esthétique plug-and-play, pour améliorer la qualité des images générées tout en maintenant la généralité à travers les concepts visuels en (1) démêlant le texte d'entrée en description de contenu et description esthétique par l'initialisation de l'incorporation esthétique, et (2) en intégrant des conditions esthétiques dans le processus de débruitage à travers une attention croisée à valeurs mélangées, le réseau étant connecté par des couches linéaires initialisées à zéro. Notre idée clé est d'améliorer la présentation esthétique des modèles de diffusion existants en concevant une méthode de contrôle de condition supérieure, tout en préservant l'alignement image-texte. Grâce à notre conception minutieuse, VMix est suffisamment flexible pour être appliqué à des modèles communautaires pour de meilleures performances visuelles sans nécessiter de nouvelle formation. Pour valider l'efficacité de notre méthode, nous avons mené des expériences approfondies, montrant que VMix surpasse d'autres méthodes de pointe et est compatible avec d'autres modules communautaires (par exemple, LoRA, ControlNet et IPAdapter) pour la génération d'images. La page du projet se trouve à l'adresse https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.

Summary

AI-Generated Summary

PDF102January 3, 2025