Дифференциальная информация: информационно-теоретический взгляд на оптимизацию предпочтений
Differential Information: An Information-Theoretic Perspective on Preference Optimization
May 29, 2025
Авторы: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
cs.AI
Аннотация
Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) стала стандартной техникой для согласования языковых моделей с человеческими предпочтениями в контролируемом режиме. Несмотря на её эмпирический успех, теоретическое обоснование параметризации награды в виде логарифмического отношения остаётся неполным. В данной работе мы устраняем этот пробел, используя Дифференциальное распределение информации (Differential Information Distribution, DID) — распределение над последовательностями токенов, которое фиксирует информацию, полученную в процессе обновления политики. Во-первых, мы показываем, что когда метки предпочтений кодируют дифференциальную информацию, необходимую для преобразования референсной политики в целевую, логарифмическое отношение награды в DPO оказывается единственно оптимальной формой для обучения целевой политики через оптимизацию предпочтений. Этот результат естественным образом приводит к замкнутому выражению для оптимального распределения выборки над отвергнутыми ответами. Во-вторых, мы обнаруживаем, что условие кодирования дифференциальной информации в предпочтениях фундаментально связано с неявным предположением о логарифмически упорядоченных политиках — индуктивном смещении, широко используемом в оптимизации предпочтений, но ранее не распознанном. Наконец, анализируя энтропию DID, мы описываем, как изучение низкоэнтропийной дифференциальной информации усиливает распределение политики, в то время как высокоэнтропийная дифференциальная информация вызывает эффект сглаживания, что объясняет феномен смещения логарифмического правдоподобия. Мы подтверждаем наши теоретические выводы в синтетических экспериментах и расширяем их на реальные наборы данных для выполнения инструкций. Наши результаты показывают, что изучение высокоэнтропийной дифференциальной информации имеет ключевое значение для общего выполнения инструкций, тогда как изучение низкоэнтропийной дифференциальной информации полезно для ответов на вопросы, требующих глубоких знаний. В целом, наша работа предлагает унифицированную перспективу на цель DPO, структуру данных предпочтений и результирующие поведения политик через призму дифференциальной информации.
English
Direct Preference Optimization (DPO) has become a standard technique for
aligning language models with human preferences in a supervised manner. Despite
its empirical success, the theoretical justification behind its log-ratio
reward parameterization remains incomplete. In this work, we address this gap
by utilizing the Differential Information Distribution (DID): a distribution
over token sequences that captures the information gained during policy
updates. First, we show that when preference labels encode the differential
information required to transform a reference policy into a target policy, the
log-ratio reward in DPO emerges as the uniquely optimal form for learning the
target policy via preference optimization. This result naturally yields a
closed-form expression for the optimal sampling distribution over rejected
responses. Second, we find that the condition for preferences to encode
differential information is fundamentally linked to an implicit assumption
regarding log-margin ordered policies-an inductive bias widely used in
preference optimization yet previously unrecognized. Finally, by analyzing the
entropy of the DID, we characterize how learning low-entropy differential
information reinforces the policy distribution, while high-entropy differential
information induces a smoothing effect, which explains the log-likelihood
displacement phenomenon. We validate our theoretical findings in synthetic
experiments and extend them to real-world instruction-following datasets. Our
results suggest that learning high-entropy differential information is crucial
for general instruction-following, while learning low-entropy differential
information benefits knowledge-intensive question answering. Overall, our work
presents a unifying perspective on the DPO objective, the structure of
preference data, and resulting policy behaviors through the lens of
differential information.Summary
AI-Generated Summary