Trouver le juste milieu : Construction des données de préférence pour l'optimisation à grande échelle
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization
February 24, 2025
Auteurs: Yao Xiao, Hai Ye, Linyao Chen, Hwee Tou Ng, Lidong Bing, Xiaoli Li, Roy Ka-wei Lee
cs.AI
Résumé
La génération itérative de données et le réentraînement des modèles sont largement utilisés pour aligner les grands modèles de langage (LLM). Ce processus implique généralement un modèle de politique pour générer des réponses alignées et un modèle de récompense pour guider la sélection des données d'entraînement. L'Optimisation Directe des Préférences (DPO) améliore encore ce processus en construisant des paires de préférences entre des réponses choisies et rejetées. Dans ce travail, nous visons à augmenter le nombre d'échantillons alignés via un échantillonnage aléatoire répété pour améliorer les performances d'alignement. La pratique conventionnelle consiste à sélectionner l'échantillon avec la récompense la plus élevée comme choisi et celui avec la récompense la plus basse comme rejeté pour la DPO. Cependant, nos expériences révèlent que cette stratégie entraîne une baisse de performance à mesure que la taille de l'échantillon augmente. Pour remédier à cela, nous étudions la construction des données de préférence à travers la lentille de la distribution normale sous-jacente des récompenses des échantillons. Nous catégorisons l'espace des récompenses en sept points représentatifs et explorons systématiquement les 21 combinaisons par paires (C_7^2). Grâce à des évaluations sur quatre modèles utilisant AlpacaEval 2, nous constatons que sélectionner la réponse rejetée à la position de récompense mu - 2sigma plutôt qu'à la récompense minimale est crucial pour des performances optimales. Nous introduisons finalement une stratégie de construction de données de préférence scalable qui améliore constamment les performances du modèle à mesure que l'échelle des échantillons augmente.
English
Iterative data generation and model retraining are widely used to align large
language models (LLMs). It typically involves a policy model to generate
on-policy responses and a reward model to guide training data selection. Direct
Preference Optimization (DPO) further enhances this process by constructing
preference pairs of chosen and rejected responses. In this work, we aim to
scale up the number of on-policy samples via repeated random sampling to
improve alignment performance. Conventional practice selects the sample with
the highest reward as chosen and the lowest as rejected for DPO. However, our
experiments reveal that this strategy leads to a decline in performance
as the sample size increases. To address this, we investigate preference data
construction through the lens of underlying normal distribution of sample
rewards. We categorize the reward space into seven representative points and
systematically explore all 21 (C_7^2) pairwise combinations. Through
evaluations on four models using AlpacaEval 2, we find that selecting the
rejected response at reward position mu - 2sigma rather than the minimum
reward, is crucial for optimal performance. We finally introduce a scalable
preference data construction strategy that consistently enhances model
performance as the sample scale increases.Summary
AI-Generated Summary