差分情報:選好最適化における情報理論的視点
Differential Information: An Information-Theoretic Perspective on Preference Optimization
May 29, 2025
著者: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI
要旨
直接選好最適化(Direct Preference Optimization: DPO)は、教師ありの方法で言語モデルを人間の選好に合わせるための標準的な技術となっている。その経験的な成功にもかかわらず、その対数比報酬パラメータ化の背後にある理論的根拠は不完全なままである。本研究では、このギャップを埋めるために、差分情報分布(Differential Information Distribution: DID)を活用する。DIDは、ポリシー更新中に得られる情報を捉えるトークンシーケンスの分布である。まず、選好ラベルが参照ポリシーを目標ポリシーに変換するために必要な差分情報をエンコードする場合、DPOの対数比報酬が選好最適化を通じて目標ポリシーを学習するための唯一最適な形式として現れることを示す。この結果から、拒否された応答に対する最適なサンプリング分布の閉形式表現が自然に導かれる。次に、選好が差分情報をエンコードする条件が、対数マージン順序付きポリシーに関する暗黙の仮定と根本的に関連していることを明らかにする。これは、選好最適化で広く使用されているが、これまで認識されていなかった帰納的バイアスである。最後に、DIDのエントロピーを分析することで、低エントロピーの差分情報を学習することがポリシー分布を強化する一方で、高エントロピーの差分情報が平滑化効果を誘発することを特徴づけ、対数尤度の変位現象を説明する。我々は、合成実験で理論的知見を検証し、それを現実世界の指示追従データセットに拡張する。結果は、高エントロピーの差分情報を学習することが一般的な指示追従に重要である一方、低エントロピーの差分情報を学習することが知識集約的な質問応答に有益であることを示唆している。全体として、本研究は、DPOの目的、選好データの構造、および差分情報の観点から得られるポリシーの振る舞いについて統一的な視点を提供する。
English
Direct Preference Optimization (DPO) has become a standard technique for
aligning language models with human preferences in a supervised manner. Despite
its empirical success, the theoretical justification behind its log-ratio
reward parameterization remains incomplete. In this work, we address this gap
by utilizing the Differential Information Distribution (DID): a distribution
over token sequences that captures the information gained during policy
updates. First, we show that when preference labels encode the differential
information required to transform a reference policy into a target policy, the
log-ratio reward in DPO emerges as the uniquely optimal form for learning the
target policy via preference optimization. This result naturally yields a
closed-form expression for the optimal sampling distribution over rejected
responses. Second, we find that the condition for preferences to encode
differential information is fundamentally linked to an implicit assumption
regarding log-margin ordered policies-an inductive bias widely used in
preference optimization yet previously unrecognized. Finally, by analyzing the
entropy of the DID, we characterize how learning low-entropy differential
information reinforces the policy distribution, while high-entropy differential
information induces a smoothing effect, which explains the log-likelihood
displacement phenomenon. We validate our theoretical findings in synthetic
experiments and extend them to real-world instruction-following datasets. Our
results suggest that learning high-entropy differential information is crucial
for general instruction-following, while learning low-entropy differential
information benefits knowledge-intensive question answering. Overall, our work
presents a unifying perspective on the DPO objective, the structure of
preference data, and resulting policy behaviors through the lens of
differential information.Summary
AI-Generated Summary