ChatPaper.aiChatPaper

VMix: Verbesserung des Text-zu-Bild-Diffusionsmodells mit Kreuz-Aufmerksamkeit Mischsteuerung

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

December 30, 2024
papers.authors: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI

papers.abstract

Obwohl Diffusionsmodelle außergewöhnliche Fähigkeiten bei der Text-zu-Bild-Erzeugung zeigen, können sie dennoch daran scheitern, äußerst ästhetische Bilder zu generieren. Genauer gesagt besteht immer noch eine Kluft zwischen den generierten Bildern und den ästhetischen Bildern der realen Welt in feineren Dimensionen wie Farbe, Beleuchtung, Komposition usw. In diesem Paper schlagen wir den Cross-Attention Value Mixing Control (VMix) Adapter vor, einen Plug-and-Play-Ästhetik-Adapter, um die Qualität der generierten Bilder zu verbessern, während die Allgemeinheit über visuelle Konzepte erhalten bleibt, indem wir (1) den Eingabetextprompt in die Inhaltsbeschreibung und ästhetische Beschreibung aufteilen durch die Initialisierung der ästhetischen Einbettung und (2) ästhetische Bedingungen in den Denoising-Prozess durch wertgemischte Cross-Attention integrieren, wobei das Netzwerk durch nullinitialisierte lineare Schichten verbunden ist. Unser Schlüsselerkenntnis besteht darin, die ästhetische Präsentation bestehender Diffusionsmodelle zu verbessern, indem wir eine überlegene Bedingungssteuerungsmethode entwerfen, während wir die Bild-Text-Ausrichtung beibehalten. Durch unser sorgfältiges Design ist VMix flexibel genug, um auf Community-Modelle angewendet zu werden, um eine bessere visuelle Leistung ohne erneutes Training zu erzielen. Um die Wirksamkeit unserer Methode zu validieren, führten wir umfangreiche Experimente durch, die zeigten, dass VMix andere State-of-the-Art-Methoden übertrifft und mit anderen Community-Modulen (z. B. LoRA, ControlNet und IPAdapter) für die Bildgenerierung kompatibel ist. Die Projektseite ist https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.
PDF102January 3, 2025