ChatPaper.aiChatPaper

Differentiële Informatie: Een Informatietheoretisch Perspectief op Preferentieoptimalisatie

Differential Information: An Information-Theoretic Perspective on Preference Optimization

May 29, 2025
Auteurs: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI

Samenvatting

Direct Preference Optimization (DPO) is uitgegroeid tot een standaardtechniek voor het afstemmen van taalmodellen op menselijke voorkeuren op een gesuperviseerde manier. Ondanks het empirische succes ervan, blijft de theoretische onderbouwing achter de log-ratio beloningsparameterisatie onvolledig. In dit werk vullen we deze leemte aan door gebruik te maken van de Differentiële Informatie Distributie (DID): een verdeling over tokenreeksen die de informatie vastlegt die wordt verkregen tijdens beleidsupdates. Ten eerste tonen we aan dat wanneer voorkeurslabels de differentiële informatie coderen die nodig is om een referentiebeleid om te zetten in een doelbeleid, de log-ratio beloning in DPO naar voren komt als de uniek optimale vorm voor het leren van het doelbeleid via voorkeursoptimalisatie. Dit resultaat leidt van nature tot een gesloten uitdrukking voor de optimale steekproefverdeling over afgewezen reacties. Ten tweede ontdekken we dat de voorwaarde voor voorkeuren om differentiële informatie te coderen fundamenteel verbonden is aan een impliciete aanname met betrekking tot log-marge geordende beleidsvoeringen – een inductieve bias die veel wordt gebruikt in voorkeursoptimalisatie maar voorheen niet werd herkend. Tot slot karakteriseren we, door de entropie van de DID te analyseren, hoe het leren van differentiële informatie met lage entropie de beleidsverdeling versterkt, terwijl differentiële informatie met hoge entropie een gladmakend effect induceert, wat het log-waarschijnlijkheidsverplaatsingsfenomeen verklaart. We valideren onze theoretische bevindingen in synthetische experimenten en breiden deze uit naar real-world datasets voor instructievolging. Onze resultaten suggereren dat het leren van differentiële informatie met hoge entropie cruciaal is voor algemene instructievolging, terwijl het leren van differentiële informatie met lage entropie voordelig is voor kennisintensieve vraag-antwoordtaken. Over het geheel genomen biedt ons werk een verenigend perspectief op het DPO-doel, de structuur van voorkeursdata en het resulterende beleidsgedrag door de lens van differentiële informatie.
English
Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.
PDF22May 30, 2025