ChatPaper.aiChatPaper

選好が分かれるとき:少数派を意識した適応型DPOによる拡散モデルの整合

When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO

March 21, 2025
著者: Lingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao
cs.AI

要旨

近年、画像生成の分野では、特にモデルを普遍的な人間の好みに適合させるファインチューニング手法において、大きな進展が見られています。本論文では、拡散モデルの学習プロセスにおける選好データの重要性、特にDiffusion-DPOとその後の適応手法の文脈について探求します。我々は、画像生成における普遍的な人間の好みの複雑さを調査し、これらの好みの主観的な性質と、選好データセットにおける少数派サンプルがもたらす課題を明らかにします。パイロット実験を通じて、少数派サンプルの存在とそれらがモデルの性能に及ぼす悪影響を実証します。我々はAdaptive-DPOを提案します。これは、DPO目的関数に少数派インスタンスを意識した指標を組み込んだ新しいアプローチです。この指標は、アノテーター内の信頼度とアノテーター間の安定性を含み、多数派サンプルと少数派サンプルを区別します。我々は、Adaptive-DPO損失関数を導入し、DPO損失を2つの方法で改善します。多数派ラベルの学習を強化しつつ、少数派サンプルの負の影響を軽減します。我々の実験は、この手法が合成された少数派データと実世界の選好データの両方を効果的に処理し、画像生成タスクにおけるより効果的な学習方法論への道を開くことを示しています。
English
In recent years, the field of image generation has witnessed significant advancements, particularly in fine-tuning methods that align models with universal human preferences. This paper explores the critical role of preference data in the training process of diffusion models, particularly in the context of Diffusion-DPO and its subsequent adaptations. We investigate the complexities surrounding universal human preferences in image generation, highlighting the subjective nature of these preferences and the challenges posed by minority samples in preference datasets. Through pilot experiments, we demonstrate the existence of minority samples and their detrimental effects on model performance. We propose Adaptive-DPO -- a novel approach that incorporates a minority-instance-aware metric into the DPO objective. This metric, which includes intra-annotator confidence and inter-annotator stability, distinguishes between majority and minority samples. We introduce an Adaptive-DPO loss function which improves the DPO loss in two ways: enhancing the model's learning of majority labels while mitigating the negative impact of minority samples. Our experiments demonstrate that this method effectively handles both synthetic minority data and real-world preference data, paving the way for more effective training methodologies in image generation tasks.

Summary

AI-Generated Summary

PDF62March 24, 2025