ChatPaper.aiChatPaper

拡散モデルに対するデュアルキャプション選好の最適化

Dual Caption Preference Optimization for Diffusion Models

February 9, 2025
著者: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI

要旨

最近の人間の好み最適化の進歩は、元々大規模言語モデル(LLMs)向けに開発されたもので、テキストから画像への拡散モデルの改善において大きな潜在能力を示しています。これらの手法は、好ましいサンプルの分布を学習し、それらを好ましくないものと区別することを目指しています。しかし、既存の好みデータセットには、これらの分布の間に重なりが見られ、衝突する分布を引き起こしています。さらに、我々は、入力プロンプトが好ましくない画像に対して無関係な情報を含んでおり、好み最適化手法におけるノイズを正確に予測するためのノイズ除去ネットワークの能力を制限していることを特定しました。これは、無関係なプロンプトの問題として知られています。これらの課題に対処するために、我々はデュアルキャプション好み最適化(DCPO)という新しいアプローチを提案します。このアプローチは、無関係なプロンプトを軽減するために2つの異なるキャプションを利用します。衝突する分布に対処するために、我々はPick-a-Pic v2の変更版であるPick-Double Captionデータセットを導入し、好ましい画像と好ましくない画像用に別々のキャプションを提供します。さらに、異なるキャプションを生成するための3つの異なる戦略を提案します:キャプショニング、摂動、ハイブリッド手法。私たちの実験は、DCPOが画質とプロンプトへの関連性を著しく向上させ、Pickscore、HPSv2.1、GenEval、CLIPscore、ImageRewardなどの複数のメトリクスで、SD 2.1をバックボーンとして微調整された状態で、Stable Diffusion(SD)2.1、SFT_Chosen、Diffusion-DPO、およびMaPOを凌駕することを示しています。
English
Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Summary

AI-Generated Summary

PDF92February 11, 2025