Optimisation des préférences de légendes doubles pour les modèles de diffusion
Dual Caption Preference Optimization for Diffusion Models
February 9, 2025
Auteurs: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI
Résumé
Les récentes avancées dans l'optimisation des préférences humaines, initialement développées pour les Grands Modèles de Langage (GML), ont montré un potentiel significatif pour améliorer les modèles de diffusion texte-image. Ces méthodes visent à apprendre la distribution des échantillons préférés tout en les distinguant des moins préférés. Cependant, les ensembles de données de préférences existants présentent souvent un chevauchement entre ces distributions, entraînant une distribution conflictuelle. De plus, nous avons identifié que les instructions d'entrée contiennent des informations non pertinentes pour les images moins préférées, limitant la capacité du réseau de débruitage à prédire avec précision le bruit dans les méthodes d'optimisation des préférences, connu sous le nom de problème des instructions non pertinentes. Pour relever ces défis, nous proposons l'Optimisation des Préférences à Double Légende (DCPO), une approche novatrice qui utilise deux légendes distinctes pour atténuer les instructions non pertinentes. Pour aborder la distribution conflictuelle, nous introduisons l'ensemble de données Pick-Double Légende, une version modifiée de Pick-a-Pic v2 avec des légendes distinctes pour les images préférées et moins préférées. Nous proposons en outre trois stratégies différentes pour générer des légendes distinctes : légendage, perturbation et méthodes hybrides. Nos expériences montrent que le DCPO améliore significativement la qualité et la pertinence des images par rapport à des instructions, surpassant Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO et MaPO selon plusieurs mesures, y compris Pickscore, HPSv2.1, GenEval, CLIPscore et ImageReward, affiné sur SD 2.1 comme base.
English
Recent advancements in human preference optimization, originally developed
for Large Language Models (LLMs), have shown significant potential in improving
text-to-image diffusion models. These methods aim to learn the distribution of
preferred samples while distinguishing them from less preferred ones. However,
existing preference datasets often exhibit overlap between these distributions,
leading to a conflict distribution. Additionally, we identified that input
prompts contain irrelevant information for less preferred images, limiting the
denoising network's ability to accurately predict noise in preference
optimization methods, known as the irrelevant prompt issue. To address these
challenges, we propose Dual Caption Preference Optimization (DCPO), a novel
approach that utilizes two distinct captions to mitigate irrelevant prompts. To
tackle conflict distribution, we introduce the Pick-Double Caption dataset, a
modified version of Pick-a-Pic v2 with separate captions for preferred and less
preferred images. We further propose three different strategies for generating
distinct captions: captioning, perturbation, and hybrid methods. Our
experiments show that DCPO significantly improves image quality and relevance
to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO,
and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval,
CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.Summary
AI-Generated Summary