Auto-exploration des modèles de langage : Élicitation active des préférences pour l'alignement en ligne
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Auteurs: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Résumé
L'optimisation des préférences, en particulier à travers l'apprentissage par renforcement à partir de retours humains (RLHF), a obtenu un succès significatif dans l'alignement des grands modèles de langage (LLMs) pour qu'ils adhèrent aux intentions humaines. Contrairement à l'alignement hors ligne avec un ensemble de données fixe, la collecte de retours en ligne provenant d'humains ou d'IA sur les générations du modèle conduit généralement à des modèles de récompense plus performants et à des LLMs mieux alignés grâce à un processus itératif. Cependant, atteindre un modèle de récompense globalement précis nécessite une exploration systématique pour générer des réponses diversifiées couvrant l'immense espace du langage naturel. Un échantillonnage aléatoire à partir de LLMs standard maximisant la récompense est insuffisant pour répondre à cette exigence. Pour résoudre ce problème, nous proposons un objectif à deux niveaux, optimistement biaisé en faveur de réponses potentiellement à haute récompense, afin d'explorer activement les régions hors distribution. En résolvant le problème de niveau interne avec la fonction de récompense reparamétrée, l'algorithme résultant, nommé Self-Exploring Language Models (SELM), élimine le besoin d'un modèle de récompense séparé et met à jour itérativement le LLM avec un objectif simple. Comparé à l'Optimisation Directe des Préférences (DPO), l'objectif SELM réduit la faveur indiscriminée envers les extrapolations non vues et améliore l'efficacité de l'exploration. Nos résultats expérimentaux montrent que, lorsqu'il est affiné sur les modèles Zephyr-7B-SFT et Llama-3-8B-Instruct, SELM améliore significativement les performances sur des benchmarks de suivi d'instructions tels que MT-Bench et AlpacaEval 2.0, ainsi que sur divers benchmarks académiques standard dans différents contextes. Notre code et nos modèles sont disponibles à l'adresse https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.Summary
AI-Generated Summary