ChatPaper.aiChatPaper

Optimalisatie van Voorkeur voor Dubbele Bijschriften voor Diffusiemodellen

Dual Caption Preference Optimization for Diffusion Models

February 9, 2025
Auteurs: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI

Samenvatting

Recente ontwikkelingen in het optimaliseren van menselijke voorkeuren, oorspronkelijk ontwikkeld voor Grote Taalmodellen (LLM's), hebben aanzienlijk potentieel laten zien in het verbeteren van modellen voor tekst-naar-afbeelding diffusie. Deze methoden beogen de verdeling van de voorkeurmonsters te leren terwijl ze deze onderscheiden van minder favoriete. Bestaande voorkeursdatasets vertonen echter vaak overlap tussen deze verdelingen, wat leidt tot een conflictverdeling. Bovendien hebben we vastgesteld dat invoerprompts irrelevante informatie bevatten voor minder favoriete afbeeldingen, waardoor het vermogen van het denoisingsnetwerk om ruis nauwkeurig te voorspellen in optimalisatiemethoden voor voorkeuren wordt beperkt, bekend als het probleem van irrelevante prompts. Om deze uitdagingen aan te pakken, stellen we Dual Caption Preference Optimization (DCPO) voor, een nieuw benadering die twee verschillende bijschriften gebruikt om irrelevante prompts te verminderen. Om de conflictverdeling aan te pakken, introduceren we de Pick-Double Caption dataset, een aangepaste versie van Pick-a-Pic v2 met afzonderlijke bijschriften voor favoriete en minder favoriete afbeeldingen. We stellen verder drie verschillende strategieën voor voor het genereren van verschillende bijschriften: bijschriften, verstoring en hybride methoden. Onze experimenten tonen aan dat DCPO de beeldkwaliteit en relevantie voor prompts aanzienlijk verbetert, waarbij het Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO en MaPO overtreft op meerdere metrieken, waaronder Pickscore, HPSv2.1, GenEval, CLIPscore en ImageReward, fijn afgestemd op SD 2.1 als basis.
English
Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Summary

AI-Generated Summary

PDF92February 11, 2025