ChatPaper.aiChatPaper

Optimierung der Präferenz für doppelte Beschriftungen für Diffusionsmodelle

Dual Caption Preference Optimization for Diffusion Models

February 9, 2025
Autoren: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI

Zusammenfassung

Neueste Fortschritte in der Optimierung menschlicher Präferenzen, die ursprünglich für Große Sprachmodelle (LLMs) entwickelt wurden, haben ein signifikantes Potenzial gezeigt, um die Text-zu-Bild-Diffusionsmodelle zu verbessern. Diese Methoden zielen darauf ab, die Verteilung bevorzugter Proben zu erlernen, während sie diese von weniger bevorzugten unterscheiden. Allerdings zeigen bestehende Präferenzdatensätze oft Überlappungen zwischen diesen Verteilungen, was zu einer Konfliktdistribution führt. Darüber hinaus haben wir festgestellt, dass Eingabeaufforderungen für weniger bevorzugte Bilder irrelevante Informationen enthalten, was die Fähigkeit des Denoising-Netzwerks zur genauen Vorhersage von Rauschen in Präferenzoptimierungsmethoden einschränkt, bekannt als das Problem der irrelevanten Aufforderung. Um diesen Herausforderungen zu begegnen, schlagen wir die Dual Caption Preference Optimization (DCPO) vor, einen neuartigen Ansatz, der zwei unterschiedliche Bildunterschriften verwendet, um irrelevante Aufforderungen zu reduzieren. Um die Konfliktdistribution anzugehen, führen wir den Pick-Double Caption-Datensatz ein, eine modifizierte Version von Pick-a-Pic v2 mit separaten Bildunterschriften für bevorzugte und weniger bevorzugte Bilder. Wir schlagen außerdem drei verschiedene Strategien zur Generierung unterschiedlicher Bildunterschriften vor: Bildunterschrift, Perturbation und Hybridmethoden. Unsere Experimente zeigen, dass DCPO die Bildqualität und Relevanz für Aufforderungen signifikant verbessert und Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO und MaPO in mehreren Metriken, einschließlich Pickscore, HPSv2.1, GenEval, CLIPscore und ImageReward, übertreffen, die auf SD 2.1 als Grundlage feinabgestimmt wurden.
English
Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Summary

AI-Generated Summary

PDF92February 11, 2025