WPO: Miglioramento dell'RLHF tramite Ottimizzazione Ponderata delle Preferenze
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Autori: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Abstract
L'apprendimento per rinforzo basato sul feedback umano (RLHF) rappresenta una soluzione promettente per allineare i grandi modelli linguistici (LLM) più strettamente ai valori umani. L'ottimizzazione delle preferenze off-policy, in cui i dati sulle preferenze sono ottenuti da altri modelli, è ampiamente adottata grazie alla sua efficienza in termini di costi e scalabilità. Tuttavia, l'ottimizzazione delle preferenze off-policy spesso soffre di un divario distributivo tra la politica utilizzata per la raccolta dei dati e la politica target, portando a un'ottimizzazione subottimale. In questo articolo, proponiamo una nuova strategia per mitigare questo problema simulando l'apprendimento on-policy con dati di preferenza off-policy. Il nostro metodo di Ottimizzazione delle Preferenze Ponderate (WPO) adatta i dati off-policy per assomigliare più da vicino ai dati on-policy, ricalibrando le coppie di preferenze in base alla loro probabilità sotto la politica corrente. Questo metodo non solo affronta il problema del divario distributivo, ma migliora anche il processo di ottimizzazione senza comportare costi aggiuntivi. Validiamo il nostro metodo su benchmark di follow-up delle istruzioni, tra cui Alpaca Eval 2 e MT-bench. WPO non solo supera l'Ottimizzazione Diretta delle Preferenze (DPO) fino al 5,6% su Alpaca Eval 2, ma stabilisce anche un tasso di vittoria controllato per lunghezza notevole del 48,6% contro GPT-4-turbo basato su Llama-3-8B-Instruct, rendendolo il modello 8B più forte nella classifica. Rilasceremo il codice e i modelli su https://github.com/wzhouad/WPO.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.