Information Différentielle : Une Perspective Informationnelle sur l'Optimisation des Préférences

papers.abstract

L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) est devenue une technique standard pour aligner les modèles de langage avec les préférences humaines de manière supervisée. Malgré son succès empirique, la justification théorique derrière sa paramétrisation de récompense par rapport logarithmique reste incomplète. Dans ce travail, nous comblons cette lacune en utilisant la Distribution d'Information Différentielle (Differential Information Distribution, DID) : une distribution sur les séquences de tokens qui capture l'information acquise lors des mises à jour de la politique. Premièrement, nous montrons que lorsque les étiquettes de préférence encodent l'information différentielle nécessaire pour transformer une politique de référence en une politique cible, la récompense par rapport logarithmique dans DPO émerge comme la forme uniquement optimale pour apprendre la politique cible via l'optimisation des préférences. Ce résultat conduit naturellement à une expression en forme fermée pour la distribution d'échantillonnage optimale sur les réponses rejetées. Deuxièmement, nous constatons que la condition pour que les préférences encodent l'information différentielle est fondamentalement liée à une hypothèse implicite concernant les politiques ordonnées par marge logarithmique — un biais inductif largement utilisé dans l'optimisation des préférences mais précédemment non reconnu. Enfin, en analysant l'entropie de la DID, nous caractérisons comment l'apprentissage d'une information différentielle à faible entropie renforce la distribution de la politique, tandis qu'une information différentielle à haute entropie induit un effet de lissage, ce qui explique le phénomène de déplacement de la vraisemblance logarithmique. Nous validons nos résultats théoriques dans des expériences synthétiques et les étendons à des ensembles de données réels de suivi d'instructions. Nos résultats suggèrent que l'apprentissage d'une information différentielle à haute entropie est crucial pour le suivi général d'instructions, tandis que l'apprentissage d'une information différentielle à faible entropie bénéficie aux questions-réponses nécessitant des connaissances approfondies. Globalement, notre travail présente une perspective unificatrice sur l'objectif de DPO, la structure des données de préférence et les comportements de politique résultants à travers le prisme de l'information différentielle.

English

Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.

Information Différentielle : Une Perspective Informationnelle sur l'Optimisation des Préférences

Differential Information: An Information-Theoretic Perspective on Preference Optimization

papers.abstract

Support