ChatPaper.aiChatPaper

Informação Diferencial: Uma Perspectiva da Teoria da Informação sobre Otimização de Preferências

Differential Information: An Information-Theoretic Perspective on Preference Optimization

May 29, 2025
Autores: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI

Resumo

A Otimização Direta de Preferências (DPO, na sigla em inglês) tornou-se uma técnica padrão para alinhar modelos de linguagem com preferências humanas de maneira supervisionada. Apesar de seu sucesso empírico, a justificativa teórica por trás de sua parametrização de recompensa logarítmica permanece incompleta. Neste trabalho, abordamos essa lacuna utilizando a Distribuição de Informação Diferencial (DID, na sigla em inglês): uma distribuição sobre sequências de tokens que captura a informação obtida durante atualizações de política. Primeiro, mostramos que, quando os rótulos de preferência codificam a informação diferencial necessária para transformar uma política de referência em uma política alvo, a recompensa logarítmica na DPO surge como a forma unicamente ótima para aprender a política alvo por meio da otimização de preferências. Esse resultado naturalmente produz uma expressão em forma fechada para a distribuição ótima de amostragem sobre respostas rejeitadas. Segundo, descobrimos que a condição para que as preferências codifiquem informação diferencial está fundamentalmente ligada a uma suposição implícita sobre políticas ordenadas por margem logarítmica — um viés indutivo amplamente utilizado na otimização de preferências, mas anteriormente não reconhecido. Por fim, ao analisar a entropia da DID, caracterizamos como o aprendizado de informação diferencial de baixa entropia reforça a distribuição da política, enquanto a informação diferencial de alta entropia induz um efeito de suavização, o que explica o fenômeno de deslocamento da log-verossimilhança. Validamos nossas descobertas teóricas em experimentos sintéticos e as estendemos para conjuntos de dados reais de seguimento de instruções. Nossos resultados sugerem que o aprendizado de informação diferencial de alta entropia é crucial para o seguimento geral de instruções, enquanto o aprendizado de informação diferencial de baixa entropia beneficia a resposta a perguntas intensivas em conhecimento. No geral, nosso trabalho apresenta uma perspectiva unificadora sobre o objetivo da DPO, a estrutura dos dados de preferência e os comportamentos resultantes das políticas, através da lente da informação diferencial.
English
Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.
PDF22December 11, 2025