ChatPaper.aiChatPaper

SIMPLEMIX: 언어 모델 선호 학습에서 오프-정책 및 온-정책 데이터의 간단한 혼합

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

May 5, 2025
저자: Tianjian Li, Daniel Khashabi
cs.AI

초록

언어 모델을 인간의 선호도에 맞추는 작업은 쌍별 선호도 데이터셋에 의존한다. 일부 연구에서는 선호도 학습을 위해 온-정책 데이터가 오프-정책 데이터보다 지속적으로 더 우수한 성능을 보인다고 주장하는 반면, 다른 연구들은 온-정책 데이터의 장점이 과제에 따라 달라질 수 있음을 지적하며, 이 둘의 상호작용에 대한 체계적인 탐구가 필요함을 강조한다. 본 연구에서는 온-정책 데이터와 오프-정책 데이터가 선호도 최적화에서 상호 보완적인 강점을 제공함을 보인다: 온-정책 데이터는 수학 및 코딩과 같은 추론 과제에서 특히 효과적인 반면, 오프-정책 데이터는 창의적 글쓰기 및 개인 맞춤 추천과 같은 개방형 과제에서 더 나은 성능을 보인다. 이러한 발견을 바탕으로, 우리는 SIMPLEMIX를 제안한다. SIMPLEMIX는 온-정책 데이터와 오프-정책 데이터의 상호 보완적인 강점을 단순히 혼합함으로써 선호도 학습을 결합하는 접근법이다. 다양한 과제와 벤치마크에서의 실험 결과는 SIMPLEMIX가 언어 모델 정렬을 크게 개선함을 보여준다. 구체적으로, SIMPLEMIX는 온-정책 DPO와 오프-정책 DPO 대비 Alpaca Eval 2.0에서 평균 6.03%의 성능 향상을 달성했다. 또한, HyPO 및 DPO-Mix-P와 같이 온-정책과 오프-정책 데이터를 결합하는 더 복잡한 기존 접근법들보다 평균 3.05% 더 우수한 성능을 보였다.
English
Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

Summary

AI-Generated Summary

PDF51May 9, 2025