ノイズの多い選好からの学習：直接選好最適化への半教師あり学習アプローチ

要旨

人間の視覚的選好は本質的に多次元的であり、美的感覚、細部の再現性、意味的整合性などを包含する。しかし、既存のデータセットは単一の総合的なアノテーションしか提供しておらず、特定の次元では優れているが他の次元では劣る画像が単純に「勝者」または「敗者」とマークされることによる深刻なラベルノイズが生じている。我々は理論的に、多次元の選好を二値ラベルに圧縮することが、拡散モデル直接選好最適化（DPO）を誤った方向に導く矛盾した勾配信号を生成することを示す。この問題に対処するため、一貫性のあるペアをクリーンなラベル付きデータ、矛盾するペアをノイズを含むラベルなしデータとして扱う半教師あり手法Semi-DPOを提案する。本手法は、合意によってフィルタリングされたクリーンなサブセットで学習を開始し、その後このモデルを暗黙的な分類器として用いてノイジーセットに対する擬似ラベルを生成し、反復的に改良する。実験結果は、Semi-DPOが最先端の性能を達成し、複雑な人間の選好との整合性を大幅に改善することを示している。これらは、学習中に追加の人間によるアノテーションや明示的な報酬モデルを必要としない。コードとモデルはhttps://github.com/L-CodingSpace/semi-dpoで公開予定である。

English

Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo

ノイズの多い選好からの学習：直接選好最適化への半教師あり学習アプローチ

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

要旨

Support