VMix: Verbesserung des Text-zu-Bild-Diffusionsmodells mit Kreuz-Aufmerksamkeit Mischsteuerung
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
December 30, 2024
papers.authors: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI
papers.abstract
Obwohl Diffusionsmodelle außergewöhnliche Fähigkeiten bei der Text-zu-Bild-Erzeugung zeigen, können sie dennoch daran scheitern, äußerst ästhetische Bilder zu generieren. Genauer gesagt besteht immer noch eine Kluft zwischen den generierten Bildern und den ästhetischen Bildern der realen Welt in feineren Dimensionen wie Farbe, Beleuchtung, Komposition usw. In diesem Paper schlagen wir den Cross-Attention Value Mixing Control (VMix) Adapter vor, einen Plug-and-Play-Ästhetik-Adapter, um die Qualität der generierten Bilder zu verbessern, während die Allgemeinheit über visuelle Konzepte erhalten bleibt, indem wir (1) den Eingabetextprompt in die Inhaltsbeschreibung und ästhetische Beschreibung aufteilen durch die Initialisierung der ästhetischen Einbettung und (2) ästhetische Bedingungen in den Denoising-Prozess durch wertgemischte Cross-Attention integrieren, wobei das Netzwerk durch nullinitialisierte lineare Schichten verbunden ist. Unser Schlüsselerkenntnis besteht darin, die ästhetische Präsentation bestehender Diffusionsmodelle zu verbessern, indem wir eine überlegene Bedingungssteuerungsmethode entwerfen, während wir die Bild-Text-Ausrichtung beibehalten. Durch unser sorgfältiges Design ist VMix flexibel genug, um auf Community-Modelle angewendet zu werden, um eine bessere visuelle Leistung ohne erneutes Training zu erzielen. Um die Wirksamkeit unserer Methode zu validieren, führten wir umfangreiche Experimente durch, die zeigten, dass VMix andere State-of-the-Art-Methoden übertrifft und mit anderen Community-Modulen (z. B. LoRA, ControlNet und IPAdapter) für die Bildgenerierung kompatibel ist. Die Projektseite ist https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image
generation, they may still fail to generate highly aesthetic images. More
specifically, there is still a gap between the generated images and the
real-world aesthetic images in finer-grained dimensions including color,
lighting, composition, etc. In this paper, we propose Cross-Attention Value
Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade
the quality of generated images while maintaining generality across visual
concepts by (1) disentangling the input text prompt into the content
description and aesthetic description by the initialization of aesthetic
embedding, and (2) integrating aesthetic conditions into the denoising process
through value-mixed cross-attention, with the network connected by
zero-initialized linear layers. Our key insight is to enhance the aesthetic
presentation of existing diffusion models by designing a superior condition
control method, all while preserving the image-text alignment. Through our
meticulous design, VMix is flexible enough to be applied to community models
for better visual performance without retraining. To validate the effectiveness
of our method, we conducted extensive experiments, showing that VMix
outperforms other state-of-the-art methods and is compatible with other
community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation.
The project page is https://vmix-diffusion.github.io/VMix/.