ChatPaper.aiChatPaper

Diffusiemodellen afstemmen op ruisgeconditioneerde perceptie

Aligning Diffusion Models with Noise-Conditioned Perception

June 25, 2024
Auteurs: Alexander Gambashidze, Anton Kulikov, Yuriy Sosnin, Ilya Makarov
cs.AI

Samenvatting

Recente vooruitgang in optimalisatie van menselijke voorkeuren, oorspronkelijk ontwikkeld voor Taalmodellen (LMs), heeft veelbelovende resultaten laten zien voor tekst-naar-beeld Diffusiemodellen, waarbij promptafstemming, visuele aantrekkelijkheid en gebruikersvoorkeuren worden verbeterd. In tegenstelling tot LMs optimaliseren Diffusiemodellen doorgaans in pixel- of VAE-ruimte, wat niet goed aansluit bij menselijke perceptie, wat leidt tot langzamere en minder efficiënte training tijdens de voorkeursafstemmingsfase. Wij stellen voor om een perceptueel doel te gebruiken in de U-Net-embeddingruimte van het diffusiemodel om deze problemen aan te pakken. Onze aanpak omvat het finetunen van Stable Diffusion 1.5 en XL met behulp van Direct Preference Optimization (DPO), Contrastive Preference Optimization (CPO) en supervised finetuning (SFT) binnen deze embeddingruimte. Deze methode overtreft aanzienlijk standaard implementaties in latente ruimte op verschillende metrieken, waaronder kwaliteit en rekenkosten. Voor SDXL biedt onze aanpak 60,8\% algemene voorkeur, 62,2\% visuele aantrekkelijkheid en 52,1\% promptvolging tegenover de originele open-source SDXL-DPO op de PartiPrompts-dataset, terwijl de rekenkosten aanzienlijk worden verminderd. Onze aanpak verbetert niet alleen de efficiëntie en kwaliteit van voorkeursafstemming voor diffusiemodellen, maar is ook eenvoudig te integreren met andere optimalisatietechnieken. De trainingscode en LoRA-gewichten zullen hier beschikbaar zijn: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
English
Recent advancements in human preference optimization, initially developed for Language Models (LMs), have shown promise for text-to-image Diffusion Models, enhancing prompt alignment, visual appeal, and user preference. Unlike LMs, Diffusion Models typically optimize in pixel or VAE space, which does not align well with human perception, leading to slower and less efficient training during the preference alignment stage. We propose using a perceptual objective in the U-Net embedding space of the diffusion model to address these issues. Our approach involves fine-tuning Stable Diffusion 1.5 and XL using Direct Preference Optimization (DPO), Contrastive Preference Optimization (CPO), and supervised fine-tuning (SFT) within this embedding space. This method significantly outperforms standard latent-space implementations across various metrics, including quality and computational cost. For SDXL, our approach provides 60.8\% general preference, 62.2\% visual appeal, and 52.1\% prompt following against original open-sourced SDXL-DPO on the PartiPrompts dataset, while significantly reducing compute. Our approach not only improves the efficiency and quality of human preference alignment for diffusion models but is also easily integrable with other optimization techniques. The training code and LoRA weights will be available here: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
PDF271February 8, 2026