ChatPaper.aiChatPaper

L'échantillonnage par rejet statistique améliore l'optimisation des préférences.

Statistical Rejection Sampling Improves Preference Optimization

September 13, 2023
Auteurs: Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu
cs.AI

Résumé

L'amélioration de l'alignement des modèles de langage avec les préférences humaines reste un défi de recherche actif. Les approches précédentes ont principalement utilisé l'apprentissage par renforcement à partir de retours humains (RLHF) via des méthodes de RL en ligne telles que l'Optimisation de Politique Proximale (PPO). Récemment, des méthodes hors ligne comme le Calibrage de Vraisemblance de Séquence (SLiC) et l'Optimisation Directe des Préférences (DPO) ont émergé comme des alternatives attractives, offrant des améliorations en termes de stabilité et de scalabilité tout en maintenant des performances compétitives. SLiC affine sa fonction de perte en utilisant des paires de séquences échantillonnées à partir d'une politique fine-tunée supervisée (SFT), tandis que DPO optimise directement les modèles de langage sur la base de données de préférences, évitant ainsi le besoin d'un modèle de récompense séparé. Cependant, l'estimateur du maximum de vraisemblance (MLE) de la politique optimale cible nécessite des paires de préférences étiquetées échantillonnées à partir de cette politique. L'absence de modèle de récompense dans DPO limite sa capacité à échantillonner des paires de préférences à partir de la politique optimale, et SLiC est restreint à l'échantillonnage de paires de préférences uniquement à partir de la politique SFT. Pour pallier ces limitations, nous introduisons une nouvelle approche appelée Optimisation par Échantillonnage de Rejet Statistique (RSO) qui vise à obtenir des données de préférences à partir de la politique optimale cible en utilisant l'échantillonnage de rejet, permettant une estimation plus précise de la politique optimale. Nous proposons également un cadre unifié qui améliore les fonctions de perte utilisées dans SLiC et DPO du point de vue de la modélisation des préférences. À travers des expériences approfondies sur trois tâches diverses, nous démontrons que RSO surpasse systématiquement à la fois SLiC et DPO dans les évaluations effectuées par des modèles de langage à grande échelle (LLM) et des évaluateurs humains.
English
Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have emerged as attractive alternatives, offering improvements in stability and scalability while maintaining competitive performance. SLiC refines its loss function using sequence pairs sampled from a supervised fine-tuned (SFT) policy, while DPO directly optimizes language models based on preference data, foregoing the need for a separate reward model. However, the maximum likelihood estimator (MLE) of the target optimal policy requires labeled preference pairs sampled from that policy. DPO's lack of a reward model constrains its ability to sample preference pairs from the optimal policy, and SLiC is restricted to sampling preference pairs only from the SFT policy. To address these limitations, we introduce a novel approach called Statistical Rejection Sampling Optimization (RSO) that aims to source preference data from the target optimal policy using rejection sampling, enabling a more accurate estimation of the optimal policy. We also propose a unified framework that enhances the loss functions used in both SLiC and DPO from a preference modeling standpoint. Through extensive experiments across three diverse tasks, we demonstrate that RSO consistently outperforms both SLiC and DPO on evaluations from both Large Language Model (LLM) and human raters.
PDF140December 15, 2024