Differenzielle Information: Eine informationstheoretische Perspektive auf die Präferenzoptimierung
Differential Information: An Information-Theoretic Perspective on Preference Optimization
May 29, 2025
Autoren: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI
Zusammenfassung
Direct Preference Optimization (DPO) hat sich als Standardtechnik etabliert, um Sprachmodelle auf überwachte Weise mit menschlichen Präferenzen abzustimmen. Trotz ihres empirischen Erfolgs bleibt die theoretische Begründung hinter ihrer Log-Ratio-Belohnungsparametrisierung unvollständig. In dieser Arbeit schließen wir diese Lücke, indem wir die Differential Information Distribution (DID) nutzen: eine Verteilung über Token-Sequenzen, die die während der Policy-Updates gewonnene Information erfasst. Zunächst zeigen wir, dass, wenn Präferenzlabels die differentielle Information kodieren, die erforderlich ist, um eine Referenz-Policy in eine Ziel-Policy zu transformieren, die Log-Ratio-Belohnung in DPO als die einzig optimale Form für das Erlernen der Ziel-Policy durch Präferenzoptimierung hervorgeht. Dieses Ergebnis liefert auf natürliche Weise einen geschlossenen Ausdruck für die optimale Stichprobenverteilung über abgelehnte Antworten. Zweitens stellen wir fest, dass die Bedingung dafür, dass Präferenzen differentielle Information kodieren, grundlegend mit einer impliziten Annahme bezüglich log-marginal geordneter Policies verbunden ist – einem induktiven Bias, der weit verbreitet in der Präferenzoptimierung verwendet wird, jedoch bisher unerkannt blieb. Schließlich charakterisieren wir durch die Analyse der Entropie der DID, wie das Erlernen von differentieller Information mit niedriger Entropie die Policy-Verteilung verstärkt, während differentielle Information mit hoher Entropie einen Glättungseffekt induziert, was das Phänomen der Log-Likelihood-Verschiebung erklärt. Wir validieren unsere theoretischen Erkenntnisse in synthetischen Experimenten und erweitern sie auf reale Datensätze zur Befolgung von Anweisungen. Unsere Ergebnisse deuten darauf hin, dass das Erlernen von differentieller Information mit hoher Entropie entscheidend für die allgemeine Befolgung von Anweisungen ist, während das Erlernen von differentieller Information mit niedriger Entropie wissensintensives Frage-Antworten begünstigt. Insgesamt bietet unsere Arbeit eine vereinheitlichende Perspektive auf das DPO-Ziel, die Struktur von Präferenzdaten und die daraus resultierenden Policy-Verhaltensweisen durch die Linse der differentiellen Information.
English
Direct Preference Optimization (DPO) has become a standard technique for
aligning language models with human preferences in a supervised manner. Despite
its empirical success, the theoretical justification behind its log-ratio
reward parameterization remains incomplete. In this work, we address this gap
by utilizing the Differential Information Distribution (DID): a distribution
over token sequences that captures the information gained during policy
updates. First, we show that when preference labels encode the differential
information required to transform a reference policy into a target policy, the
log-ratio reward in DPO emerges as the uniquely optimal form for learning the
target policy via preference optimization. This result naturally yields a
closed-form expression for the optimal sampling distribution over rejected
responses. Second, we find that the condition for preferences to encode
differential information is fundamentally linked to an implicit assumption
regarding log-margin ordered policies-an inductive bias widely used in
preference optimization yet previously unrecognized. Finally, by analyzing the
entropy of the DID, we characterize how learning low-entropy differential
information reinforces the policy distribution, while high-entropy differential
information induces a smoothing effect, which explains the log-likelihood
displacement phenomenon. We validate our theoretical findings in synthetic
experiments and extend them to real-world instruction-following datasets. Our
results suggest that learning high-entropy differential information is crucial
for general instruction-following, while learning low-entropy differential
information benefits knowledge-intensive question answering. Overall, our work
presents a unifying perspective on the DPO objective, the structure of
preference data, and resulting policy behaviors through the lens of
differential information.Summary
AI-Generated Summary