ChatPaper.aiChatPaper

Informazione Differenziale: Una Prospettiva Teorica dell'Informazione sull'Ottimizzazione delle Preferenze

Differential Information: An Information-Theoretic Perspective on Preference Optimization

May 29, 2025
Autori: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI

Abstract

L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è diventata una tecnica standard per allineare i modelli linguistici con le preferenze umane in modo supervisionato. Nonostante il suo successo empirico, la giustificazione teorica alla base della sua parametrizzazione della ricompensa logaritmica rimane incompleta. In questo lavoro, affrontiamo questa lacuna utilizzando la Distribuzione Differenziale dell'Informazione (Differential Information Distribution, DID): una distribuzione sulle sequenze di token che cattura l'informazione acquisita durante gli aggiornamenti della politica. In primo luogo, dimostriamo che quando le etichette di preferenza codificano l'informazione differenziale necessaria per trasformare una politica di riferimento in una politica target, la ricompensa logaritmica nella DPO emerge come la forma unicamente ottimale per apprendere la politica target tramite l'ottimizzazione delle preferenze. Questo risultato produce naturalmente un'espressione in forma chiusa per la distribuzione di campionamento ottimale sulle risposte rifiutate. In secondo luogo, scopriamo che la condizione affinché le preferenze codifichino l'informazione differenziale è fondamentalmente legata a un'assunzione implicita riguardo alle politiche ordinate per margine logaritmico, un bias induttivo ampiamente utilizzato nell'ottimizzazione delle preferenze ma precedentemente non riconosciuto. Infine, analizzando l'entropia della DID, caratterizziamo come l'apprendimento di informazioni differenziali a bassa entropia rafforzi la distribuzione della politica, mentre informazioni differenziali ad alta entropia inducono un effetto di livellamento, che spiega il fenomeno dello spostamento della log-verosimiglianza. Convalidiamo le nostre scoperte teoriche in esperimenti sintetici e le estendiamo a dataset reali di esecuzione di istruzioni. I nostri risultati suggeriscono che l'apprendimento di informazioni differenziali ad alta entropia è cruciale per l'esecuzione generale di istruzioni, mentre l'apprendimento di informazioni differenziali a bassa entropia beneficia la risposta a domande ad alta intensità di conoscenza. Nel complesso, il nostro lavoro presenta una prospettiva unificante sull'obiettivo della DPO, la struttura dei dati di preferenza e i comportamenti risultanti delle politiche attraverso la lente dell'informazione differenziale.
English
Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.
PDF32May 30, 2025