Trovare il Punto Ottimale: Costruzione dei Dati di Preferenza per il Ridimensionamento dell'Ottimizzazione delle Preferenze
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization
February 24, 2025
Autori: Yao Xiao, Hai Ye, Linyao Chen, Hwee Tou Ng, Lidong Bing, Xiaoli Li, Roy Ka-wei Lee
cs.AI
Abstract
La generazione iterativa di dati e il riaddestramento del modello sono ampiamente utilizzati per allineare i grandi modelli linguistici (LLM). Questo processo coinvolge tipicamente un modello di policy per generare risposte on-policy e un modello di reward per guidare la selezione dei dati di addestramento. L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) migliora ulteriormente questo processo costruendo coppie di preferenze tra risposte scelte e rifiutate. In questo lavoro, miriamo a scalare il numero di campioni on-policy attraverso un campionamento casuale ripetuto per migliorare le prestazioni di allineamento. La pratica convenzionale seleziona il campione con il reward più alto come scelto e quello con il reward più basso come rifiutato per il DPO. Tuttavia, i nostri esperimenti rivelano che questa strategia porta a un declino delle prestazioni all'aumentare della dimensione del campione. Per affrontare questo problema, investigiamo la costruzione dei dati di preferenza attraverso la lente della distribuzione normale sottostante dei reward dei campioni. Categorizziamo lo spazio dei reward in sette punti rappresentativi ed esploriamo sistematicamente tutte le 21 combinazioni a coppie (C_7^2). Attraverso valutazioni su quattro modelli utilizzando AlpacaEval 2, scopriamo che selezionare la risposta rifiutata alla posizione di reward mu - 2sigma, piuttosto che al reward minimo, è cruciale per ottenere prestazioni ottimali. Introduciamo infine una strategia scalabile per la costruzione dei dati di preferenza che migliora costantemente le prestazioni del modello all'aumentare della scala del campione.
English
Iterative data generation and model retraining are widely used to align large
language models (LLMs). It typically involves a policy model to generate
on-policy responses and a reward model to guide training data selection. Direct
Preference Optimization (DPO) further enhances this process by constructing
preference pairs of chosen and rejected responses. In this work, we aim to
scale up the number of on-policy samples via repeated random sampling to
improve alignment performance. Conventional practice selects the sample with
the highest reward as chosen and the lowest as rejected for DPO. However, our
experiments reveal that this strategy leads to a decline in performance
as the sample size increases. To address this, we investigate preference data
construction through the lens of underlying normal distribution of sample
rewards. We categorize the reward space into seven representative points and
systematically explore all 21 (C_7^2) pairwise combinations. Through
evaluations on four models using AlpacaEval 2, we find that selecting the
rejected response at reward position mu - 2sigma rather than the minimum
reward, is crucial for optimal performance. We finally introduce a scalable
preference data construction strategy that consistently enhances model
performance as the sample scale increases.Summary
AI-Generated Summary