스위트 스팟 찾기: 선호도 최적화 확장을 위한 데이터 구축
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization
February 24, 2025
저자: Yao Xiao, Hai Ye, Linyao Chen, Hwee Tou Ng, Lidong Bing, Xiaoli Li, Roy Ka-wei Lee
cs.AI
초록
반복적인 데이터 생성과 모델 재훈련은 대규모 언어 모델(LLM)을 정렬(alignment)시키기 위해 널리 사용됩니다. 이 과정은 일반적으로 온-정책(on-policy) 응답을 생성하는 정책 모델과 훈련 데이터 선택을 안내하는 보상 모델을 포함합니다. 직접 선호 최적화(Direct Preference Optimization, DPO)는 선택된 응답과 거부된 응답의 선호 쌍을 구성함으로써 이 과정을 더욱 강화합니다. 본 연구에서는 반복적인 무작위 샘플링을 통해 온-정책 샘플의 수를 확장하여 정렬 성능을 개선하고자 합니다. 기존의 관행은 DPO를 위해 가장 높은 보상을 받은 샘플을 선택된 것으로, 가장 낮은 보상을 받은 샘플을 거부된 것으로 선택합니다. 그러나 우리의 실험 결과, 이 전략은 샘플 크기가 증가함에 따라 성능 저하를 초래하는 것으로 나타났습니다. 이를 해결하기 위해, 우리는 샘플 보상의 기본 정규 분포를 통해 선호 데이터 구성을 조사합니다. 보상 공간을 7개의 대표적인 지점으로 분류하고, 모든 21가지(C_7^2) 쌍별 조합을 체계적으로 탐구합니다. AlpacaEval 2를 사용하여 4개의 모델을 평가한 결과, 최소 보상이 아닌 보상 위치 mu - 2sigma에서 거부된 응답을 선택하는 것이 최적의 성능을 위해 중요하다는 것을 발견했습니다. 마지막으로, 샘플 규모가 증가함에 따라 모델 성능을 지속적으로 향상시키는 확장 가능한 선호 데이터 구성 전략을 소개합니다.
English
Iterative data generation and model retraining are widely used to align large
language models (LLMs). It typically involves a policy model to generate
on-policy responses and a reward model to guide training data selection. Direct
Preference Optimization (DPO) further enhances this process by constructing
preference pairs of chosen and rejected responses. In this work, we aim to
scale up the number of on-policy samples via repeated random sampling to
improve alignment performance. Conventional practice selects the sample with
the highest reward as chosen and the lowest as rejected for DPO. However, our
experiments reveal that this strategy leads to a decline in performance
as the sample size increases. To address this, we investigate preference data
construction through the lens of underlying normal distribution of sample
rewards. We categorize the reward space into seven representative points and
systematically explore all 21 (C_7^2) pairwise combinations. Through
evaluations on four models using AlpacaEval 2, we find that selecting the
rejected response at reward position mu - 2sigma rather than the minimum
reward, is crucial for optimal performance. We finally introduce a scalable
preference data construction strategy that consistently enhances model
performance as the sample scale increases.Summary
AI-Generated Summary