Ottimizzazione delle Preferenze delle Didascalie Duali per i Modelli di Diffusione
Dual Caption Preference Optimization for Diffusion Models
February 9, 2025
Autori: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI
Abstract
I recenti progressi nell'ottimizzazione delle preferenze umane, originariamente sviluppati per i Grandi Modelli Linguistici (LLM), hanno mostrato un significativo potenziale nel migliorare i modelli di diffusione testo-immagine. Questi metodi mirano a imparare la distribuzione dei campioni preferiti distinguendoli da quelli meno preferiti. Tuttavia, i dataset di preferenze esistenti spesso presentano sovrapposizioni tra queste distribuzioni, portando a una distribuzione conflittuale. Inoltre, abbiamo identificato che le istruzioni di input contengono informazioni non rilevanti per le immagini meno preferite, limitando la capacità della rete di denoising di predire con precisione il rumore nei metodi di ottimizzazione delle preferenze, noto come problema delle istruzioni non rilevanti. Per affrontare queste sfide, proponiamo l'Ottimizzazione delle Preferenze a Doppia Didascalia (DCPO), un approccio innovativo che utilizza due didascalie distinte per mitigare le istruzioni non rilevanti. Per affrontare la distribuzione conflittuale, introduciamo il dataset Pick-Double Caption, una versione modificata di Pick-a-Pic v2 con didascalie separate per le immagini preferite e meno preferite. Proponiamo inoltre tre diverse strategie per generare didascalie distinte: captioning, perturbazione e metodi ibridi. I nostri esperimenti mostrano che DCPO migliora significativamente la qualità e la rilevanza delle immagini rispetto alle istruzioni, superando Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO e MaPO su diversi metriche, inclusi Pickscore, HPSv2.1, GenEval, CLIPscore e ImageReward, raffinati su SD 2.1 come base.
English
Recent advancements in human preference optimization, originally developed
for Large Language Models (LLMs), have shown significant potential in improving
text-to-image diffusion models. These methods aim to learn the distribution of
preferred samples while distinguishing them from less preferred ones. However,
existing preference datasets often exhibit overlap between these distributions,
leading to a conflict distribution. Additionally, we identified that input
prompts contain irrelevant information for less preferred images, limiting the
denoising network's ability to accurately predict noise in preference
optimization methods, known as the irrelevant prompt issue. To address these
challenges, we propose Dual Caption Preference Optimization (DCPO), a novel
approach that utilizes two distinct captions to mitigate irrelevant prompts. To
tackle conflict distribution, we introduce the Pick-Double Caption dataset, a
modified version of Pick-a-Pic v2 with separate captions for preferred and less
preferred images. We further propose three different strategies for generating
distinct captions: captioning, perturbation, and hybrid methods. Our
experiments show that DCPO significantly improves image quality and relevance
to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO,
and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval,
CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.Summary
AI-Generated Summary