Оптимизация предпочтений двойных подписей для моделей диффузии
Dual Caption Preference Optimization for Diffusion Models
February 9, 2025
Авторы: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI
Аннотация
Недавние достижения в оптимизации предпочтений человека, изначально разработанные для моделей больших языков (LLM), показали значительный потенциал в улучшении моделей диффузии текста в изображения. Эти методы направлены на изучение распределения предпочтительных образцов, отличая их от менее предпочтительных. Однако существующие наборы данных предпочтений часто имеют перекрытие между этими распределениями, что приводит к конфликтному распределению. Кроме того, мы выявили, что входные подсказки содержат несущественную информацию для менее предпочтительных изображений, что ограничивает способность сети денойзинга точно предсказывать шум в методах оптимизации предпочтений, известную как проблема несущественной подсказки. Для решения этих проблем мы предлагаем метод двойной оптимизации предпочтений подписей (DCPO), новый подход, использующий две различные подписи для смягчения несущественных подсказок. Для борьбы с конфликтным распределением мы представляем набор данных Pick-Double Caption, модифицированную версию Pick-a-Pic v2 с отдельными подписями для предпочтительных и менее предпочтительных изображений. Мы также предлагаем три различные стратегии для генерации различных подписей: подписывание, возмущение и гибридные методы. Наши эксперименты показывают, что DCPO значительно улучшает качество изображения и его соответствие подсказкам, превосходя Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO и MaPO по нескольким метрикам, включая Pickscore, HPSv2.1, GenEval, CLIPscore и ImageReward, донастроенные на SD 2.1 в качестве основы.
English
Recent advancements in human preference optimization, originally developed
for Large Language Models (LLMs), have shown significant potential in improving
text-to-image diffusion models. These methods aim to learn the distribution of
preferred samples while distinguishing them from less preferred ones. However,
existing preference datasets often exhibit overlap between these distributions,
leading to a conflict distribution. Additionally, we identified that input
prompts contain irrelevant information for less preferred images, limiting the
denoising network's ability to accurately predict noise in preference
optimization methods, known as the irrelevant prompt issue. To address these
challenges, we propose Dual Caption Preference Optimization (DCPO), a novel
approach that utilizes two distinct captions to mitigate irrelevant prompts. To
tackle conflict distribution, we introduce the Pick-Double Caption dataset, a
modified version of Pick-a-Pic v2 with separate captions for preferred and less
preferred images. We further propose three different strategies for generating
distinct captions: captioning, perturbation, and hybrid methods. Our
experiments show that DCPO significantly improves image quality and relevance
to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO,
and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval,
CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.Summary
AI-Generated Summary