SIMPLEMIX: Удивительно простой способ смешивания данных off-policy и on-policy в обучении языковых моделей на основе предпочтений
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning
May 5, 2025
Авторы: Tianjian Li, Daniel Khashabi
cs.AI
Аннотация
Согласование языковых моделей с человеческими предпочтениями основывается на наборах данных с парными предпочтениями. Хотя некоторые исследования показывают, что данные, собранные в режиме on-policy, стабильно превосходят данные off-policy в обучении предпочтениям, другие указывают, что преимущества данных on-policy могут зависеть от задачи, что подчеркивает необходимость систематического изучения их взаимодействия.
В данной работе мы демонстрируем, что данные on-policy и off-policy предлагают взаимодополняющие преимущества в оптимизации предпочтений: данные on-policy особенно эффективны для задач, связанных с логическим мышлением, таких как математика и программирование, в то время как данные off-policy лучше справляются с открытыми задачами, такими как творческое письмо и персонализированные рекомендации. Руководствуясь этими выводами, мы представляем SIMPLEMIX — подход, который объединяет взаимодополняющие преимущества обучения предпочтениям на данных on-policy и off-policy путем простого смешивания этих двух источников данных. Наши эмпирические результаты на различных задачах и бенчмарках показывают, что SIMPLEMIX значительно улучшает согласование языковых моделей. В частности, SIMPLEMIX превосходит on-policy DPO и off-policy DPO в среднем на 6,03% на Alpaca Eval 2.0. Более того, он опережает предыдущие подходы, которые были значительно сложнее в комбинировании данных on-policy и off-policy, такие как HyPO и DPO-Mix-P, в среднем на 3,05%.
English
Aligning language models with human preferences relies on pairwise preference
datasets. While some studies suggest that on-policy data consistently
outperforms off -policy data for preference learning, others indicate that the
advantages of on-policy data may be task-dependent, highlighting the need for a
systematic exploration of their interplay.
In this work, we show that on-policy and off-policy data offer complementary
strengths in preference optimization: on-policy data is particularly effective
for reasoning tasks like math and coding, while off-policy data performs better
on open-ended tasks such as creative writing and making personal
recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach
to combine the complementary strengths of on-policy and off-policy preference
learning by simply mixing these two data sources. Our empirical results across
diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves
language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO
and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it
outperforms prior approaches that are much more complex in combining on- and
off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.