Ottimizzazione delle Preferenze delle Didascalie Duali per i Modelli di Diffusione

Abstract

I recenti progressi nell'ottimizzazione delle preferenze umane, originariamente sviluppati per i Grandi Modelli Linguistici (LLM), hanno mostrato un significativo potenziale nel migliorare i modelli di diffusione testo-immagine. Questi metodi mirano a imparare la distribuzione dei campioni preferiti distinguendoli da quelli meno preferiti. Tuttavia, i dataset di preferenze esistenti spesso presentano sovrapposizioni tra queste distribuzioni, portando a una distribuzione conflittuale. Inoltre, abbiamo identificato che le istruzioni di input contengono informazioni non rilevanti per le immagini meno preferite, limitando la capacità della rete di denoising di predire con precisione il rumore nei metodi di ottimizzazione delle preferenze, noto come problema delle istruzioni non rilevanti. Per affrontare queste sfide, proponiamo l'Ottimizzazione delle Preferenze a Doppia Didascalia (DCPO), un approccio innovativo che utilizza due didascalie distinte per mitigare le istruzioni non rilevanti. Per affrontare la distribuzione conflittuale, introduciamo il dataset Pick-Double Caption, una versione modificata di Pick-a-Pic v2 con didascalie separate per le immagini preferite e meno preferite. Proponiamo inoltre tre diverse strategie per generare didascalie distinte: captioning, perturbazione e metodi ibridi. I nostri esperimenti mostrano che DCPO migliora significativamente la qualità e la rilevanza delle immagini rispetto alle istruzioni, superando Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO e MaPO su diversi metriche, inclusi Pickscore, HPSv2.1, GenEval, CLIPscore e ImageReward, raffinati su SD 2.1 come base.

English

Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Ottimizzazione delle Preferenze delle Didascalie Duali per i Modelli di Diffusione

Dual Caption Preference Optimization for Diffusion Models

Abstract

Support