SIMPLEMIX: 言語モデルの選好学習におけるオフポリシーとオンポリシーデータの単純な混合
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning
May 5, 2025
著者: Tianjian Li, Daniel Khashabi
cs.AI
要旨
言語モデルを人間の好みに合わせるためには、ペアワイズ選好データセットが重要です。一部の研究では、選好学習においてオンポリシーデータがオフポリシーデータを一貫して上回るとされていますが、他の研究では、オンポリシーデータの利点がタスク依存である可能性を示しており、これらの相互作用を体系的に探る必要性が強調されています。
本研究では、選好最適化においてオンポリシーデータとオフポリシーデータが補完的な強みを提供することを示します。具体的には、オンポリシーデータは数学やコーディングなどの推論タスクに特に有効であり、オフポリシーデータは創造的な文章作成や個人的な推薦などのオープンエンドタスクで優れた性能を発揮します。これらの知見に基づき、我々はSIMPLEMIXを提案します。これは、オンポリシーとオフポリシーの選好学習の補完的な強みを、単にこれら2つのデータソースを混合することで組み合わせるアプローチです。多様なタスクとベンチマークにおける実証結果は、SIMPLEMIXが言語モデルのアラインメントを大幅に改善することを示しています。具体的には、SIMPLEMIXはAlpaca Eval 2.0において、オンポリシーDPOとオフポリシーDPOを平均6.03%上回りました。さらに、HyPOやDPO-Mix-Pなど、オンポリシーとオフポリシーデータを組み合わせるためのより複雑な先行手法を平均3.05%上回りました。
English
Aligning language models with human preferences relies on pairwise preference
datasets. While some studies suggest that on-policy data consistently
outperforms off -policy data for preference learning, others indicate that the
advantages of on-policy data may be task-dependent, highlighting the need for a
systematic exploration of their interplay.
In this work, we show that on-policy and off-policy data offer complementary
strengths in preference optimization: on-policy data is particularly effective
for reasoning tasks like math and coding, while off-policy data performs better
on open-ended tasks such as creative writing and making personal
recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach
to combine the complementary strengths of on-policy and off-policy preference
learning by simply mixing these two data sources. Our empirical results across
diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves
language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO
and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it
outperforms prior approaches that are much more complex in combining on- and
off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.Summary
AI-Generated Summary