ChatPaper.aiChatPaper

VMix: Verbetering van het tekst-naar-afbeelding diffusiemodel met kruislingse aandachtcontrole

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

December 30, 2024
Auteurs: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He
cs.AI

Samenvatting

Hoewel diffusiemodellen buitengewone talenten tonen in tekst-naar-afbeelding generatie, kunnen ze nog steeds tekortschieten bij het genereren van zeer esthetische afbeeldingen. Meer specifiek is er nog steeds een kloof tussen de gegenereerde afbeeldingen en de esthetische afbeeldingen in de echte wereld op fijnere dimensies, waaronder kleur, belichting, compositie, enzovoort. In dit artikel stellen we Cross-Attention Value Mixing Control (VMix) Adapter voor, een plug-and-play esthetische adapter, om de kwaliteit van gegenereerde afbeeldingen te verbeteren terwijl de algemeenheid over visuele concepten behouden blijft door (1) de invoertekstprompt te ontwarren in de inhoudsbeschrijving en esthetische beschrijving door de initialisatie van esthetische embedding, en (2) esthetische voorwaarden te integreren in het denoising proces door middel van waarde-gemengde cross-attention, met het netwerk verbonden door nul-geïnitialiseerde lineaire lagen. Ons belangrijk inzicht is om de esthetische presentatie van bestaande diffusiemodellen te verbeteren door het ontwerpen van een superieure voorwaardenbeheersingsmethode, terwijl de afbeelding-tekst alignering behouden blijft. Door ons zorgvuldige ontwerp is VMix flexibel genoeg om toegepast te worden op community modellen voor betere visuele prestaties zonder opnieuw te trainen. Om de effectiviteit van onze methode te valideren, hebben we uitgebreide experimenten uitgevoerd, waaruit blijkt dat VMix andere state-of-the-art methoden overtreft en compatibel is met andere community modules (bijv. LoRA, ControlNet en IPAdapter) voor afbeeldingsgeneratie. De projectpagina is https://vmix-diffusion.github.io/VMix/.
English
While diffusion models show extraordinary talents in text-to-image generation, they may still fail to generate highly aesthetic images. More specifically, there is still a gap between the generated images and the real-world aesthetic images in finer-grained dimensions including color, lighting, composition, etc. In this paper, we propose Cross-Attention Value Mixing Control (VMix) Adapter, a plug-and-play aesthetics adapter, to upgrade the quality of generated images while maintaining generality across visual concepts by (1) disentangling the input text prompt into the content description and aesthetic description by the initialization of aesthetic embedding, and (2) integrating aesthetic conditions into the denoising process through value-mixed cross-attention, with the network connected by zero-initialized linear layers. Our key insight is to enhance the aesthetic presentation of existing diffusion models by designing a superior condition control method, all while preserving the image-text alignment. Through our meticulous design, VMix is flexible enough to be applied to community models for better visual performance without retraining. To validate the effectiveness of our method, we conducted extensive experiments, showing that VMix outperforms other state-of-the-art methods and is compatible with other community modules (e.g., LoRA, ControlNet, and IPAdapter) for image generation. The project page is https://vmix-diffusion.github.io/VMix/.

Summary

AI-Generated Summary

PDF102January 3, 2025