Información Diferencial: Una Perspectiva Teórica de la Información sobre la Optimización de Preferencias
Differential Information: An Information-Theoretic Perspective on Preference Optimization
May 29, 2025
Autores: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI
Resumen
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) se ha convertido en una técnica estándar para alinear modelos de lenguaje con preferencias humanas de manera supervisada. A pesar de su éxito empírico, la justificación teórica detrás de su parametrización de recompensa basada en el logaritmo de la razón sigue siendo incompleta. En este trabajo, abordamos esta brecha utilizando la Distribución de Información Diferencial (DID, por sus siglas en inglés): una distribución sobre secuencias de tokens que captura la información obtenida durante las actualizaciones de la política. Primero, demostramos que cuando las etiquetas de preferencia codifican la información diferencial necesaria para transformar una política de referencia en una política objetivo, la recompensa basada en el logaritmo de la razón en DPO surge como la forma óptima única para aprender la política objetivo mediante la optimización de preferencias. Este resultado conduce naturalmente a una expresión de forma cerrada para la distribución óptima de muestreo sobre las respuestas rechazadas. Segundo, encontramos que la condición para que las preferencias codifiquen información diferencial está fundamentalmente ligada a una suposición implícita respecto a políticas ordenadas por el logaritmo del margen, un sesgo inductivo ampliamente utilizado en la optimización de preferencias pero previamente no reconocido. Finalmente, al analizar la entropía de la DID, caracterizamos cómo el aprendizaje de información diferencial de baja entropía refuerza la distribución de la política, mientras que la información diferencial de alta entropía induce un efecto de suavizado, lo que explica el fenómeno de desplazamiento de la verosimilitud logarítmica. Validamos nuestros hallazgos teóricos en experimentos sintéticos y los extendemos a conjuntos de datos del mundo real para el seguimiento de instrucciones. Nuestros resultados sugieren que el aprendizaje de información diferencial de alta entropía es crucial para el seguimiento general de instrucciones, mientras que el aprendizaje de información diferencial de baja entropía beneficia la respuesta a preguntas intensivas en conocimiento. En general, nuestro trabajo presenta una perspectiva unificadora sobre el objetivo de DPO, la estructura de los datos de preferencia y los comportamientos resultantes de la política a través del lente de la información diferencial.
English
Direct Preference Optimization (DPO) has become a standard technique for
aligning language models with human preferences in a supervised manner. Despite
its empirical success, the theoretical justification behind its log-ratio
reward parameterization remains incomplete. In this work, we address this gap
by utilizing the Differential Information Distribution (DID): a distribution
over token sequences that captures the information gained during policy
updates. First, we show that when preference labels encode the differential
information required to transform a reference policy into a target policy, the
log-ratio reward in DPO emerges as the uniquely optimal form for learning the
target policy via preference optimization. This result naturally yields a
closed-form expression for the optimal sampling distribution over rejected
responses. Second, we find that the condition for preferences to encode
differential information is fundamentally linked to an implicit assumption
regarding log-margin ordered policies-an inductive bias widely used in
preference optimization yet previously unrecognized. Finally, by analyzing the
entropy of the DID, we characterize how learning low-entropy differential
information reinforces the policy distribution, while high-entropy differential
information induces a smoothing effect, which explains the log-likelihood
displacement phenomenon. We validate our theoretical findings in synthetic
experiments and extend them to real-world instruction-following datasets. Our
results suggest that learning high-entropy differential information is crucial
for general instruction-following, while learning low-entropy differential
information benefits knowledge-intensive question answering. Overall, our work
presents a unifying perspective on the DPO objective, the structure of
preference data, and resulting policy behaviors through the lens of
differential information.Summary
AI-Generated Summary