Modélisation générale des préférences avec des représentations de préférences pour l'alignement des modèles de langage
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Auteurs: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Résumé
La modélisation des préférences humaines est cruciale pour aligner les modèles de base sur les valeurs humaines. Les méthodes traditionnelles de modélisation de récompenses, telles que le modèle de récompense Bradley-Terry (BT), sont limitées en termes d'expressivité, notamment pour traiter les préférences transitives. Bien que les modèles de préférences par paires supervisées (PairPM) puissent exprimer des préférences générales, leur mise en œuvre est très ad hoc et ne peut garantir une probabilité de préférence cohérente des paires comparées. De plus, ils imposent des coûts de calcul élevés en raison de leur complexité de requête quadratique lors de la comparaison de multiples réponses. Dans cet article, nous introduisons l'apprentissage de représentation de préférences, une approche qui intègre les réponses dans un espace latent pour capturer efficacement des structures de préférences complexes, atteignant une complexité de requête linéaire. De plus, nous proposons l'Optimisation Générale des Préférences basée sur les scores de préférences (GPO), qui généralise l'apprentissage par renforcement basé sur les récompenses à partir des retours humains. Les résultats expérimentaux montrent que notre modèle de représentation de préférences générales (GPM) surpasse le modèle de récompense BT sur le benchmark RewardBench avec une marge allant jusqu'à 5,6% et modélise efficacement des préférences cycliques où tout modèle de récompense BT se comporte comme une supposition aléatoire. De plus, les évaluations sur des tâches ultérieures telles que AlpacaEval2.0 et MT-Bench, suivant le post-entraînement du modèle de langue avec GPO et notre modèle de préférences générales, révèlent des améliorations de performance substantielles avec des marges allant jusqu'à 9,3%. Ces résultats indiquent que notre méthode pourrait améliorer l'alignement des modèles de base sur des valeurs humaines nuancées. Le code est disponible sur https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.Summary
AI-Generated Summary