ChatPaper.aiChatPaper

Información Diferencial: Una Perspectiva Teórica de la Información sobre la Optimización de Preferencias

Differential Information: An Information-Theoretic Perspective on Preference Optimization

May 29, 2025
Autores: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI

Resumen

La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) se ha convertido en una técnica estándar para alinear modelos de lenguaje con preferencias humanas de manera supervisada. A pesar de su éxito empírico, la justificación teórica detrás de su parametrización de recompensa basada en el logaritmo de la razón sigue siendo incompleta. En este trabajo, abordamos esta brecha utilizando la Distribución de Información Diferencial (DID, por sus siglas en inglés): una distribución sobre secuencias de tokens que captura la información obtenida durante las actualizaciones de la política. Primero, demostramos que cuando las etiquetas de preferencia codifican la información diferencial necesaria para transformar una política de referencia en una política objetivo, la recompensa basada en el logaritmo de la razón en DPO surge como la forma óptima única para aprender la política objetivo mediante la optimización de preferencias. Este resultado conduce naturalmente a una expresión de forma cerrada para la distribución óptima de muestreo sobre las respuestas rechazadas. Segundo, encontramos que la condición para que las preferencias codifiquen información diferencial está fundamentalmente ligada a una suposición implícita respecto a políticas ordenadas por el logaritmo del margen, un sesgo inductivo ampliamente utilizado en la optimización de preferencias pero previamente no reconocido. Finalmente, al analizar la entropía de la DID, caracterizamos cómo el aprendizaje de información diferencial de baja entropía refuerza la distribución de la política, mientras que la información diferencial de alta entropía induce un efecto de suavizado, lo que explica el fenómeno de desplazamiento de la verosimilitud logarítmica. Validamos nuestros hallazgos teóricos en experimentos sintéticos y los extendemos a conjuntos de datos del mundo real para el seguimiento de instrucciones. Nuestros resultados sugieren que el aprendizaje de información diferencial de alta entropía es crucial para el seguimiento general de instrucciones, mientras que el aprendizaje de información diferencial de baja entropía beneficia la respuesta a preguntas intensivas en conocimiento. En general, nuestro trabajo presenta una perspectiva unificadora sobre el objetivo de DPO, la estructura de los datos de preferencia y los comportamientos resultantes de la política a través del lente de la información diferencial.
English
Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.

Summary

AI-Generated Summary

PDF32May 30, 2025