Modélisation générale des préférences avec des représentations de préférences pour l'alignement des modèles de langage

papers.abstract

La modélisation des préférences humaines est cruciale pour aligner les modèles de base sur les valeurs humaines. Les méthodes traditionnelles de modélisation de récompenses, telles que le modèle de récompense Bradley-Terry (BT), sont limitées en termes d'expressivité, notamment pour traiter les préférences transitives. Bien que les modèles de préférences par paires supervisées (PairPM) puissent exprimer des préférences générales, leur mise en œuvre est très ad hoc et ne peut garantir une probabilité de préférence cohérente des paires comparées. De plus, ils imposent des coûts de calcul élevés en raison de leur complexité de requête quadratique lors de la comparaison de multiples réponses. Dans cet article, nous introduisons l'apprentissage de représentation de préférences, une approche qui intègre les réponses dans un espace latent pour capturer efficacement des structures de préférences complexes, atteignant une complexité de requête linéaire. De plus, nous proposons l'Optimisation Générale des Préférences basée sur les scores de préférences (GPO), qui généralise l'apprentissage par renforcement basé sur les récompenses à partir des retours humains. Les résultats expérimentaux montrent que notre modèle de représentation de préférences générales (GPM) surpasse le modèle de récompense BT sur le benchmark RewardBench avec une marge allant jusqu'à 5,6% et modélise efficacement des préférences cycliques où tout modèle de récompense BT se comporte comme une supposition aléatoire. De plus, les évaluations sur des tâches ultérieures telles que AlpacaEval2.0 et MT-Bench, suivant le post-entraînement du modèle de langue avec GPO et notre modèle de préférences générales, révèlent des améliorations de performance substantielles avec des marges allant jusqu'à 9,3%. Ces résultats indiquent que notre méthode pourrait améliorer l'alignement des modèles de base sur des valeurs humaines nuancées. Le code est disponible sur https://github.com/general-preference/general-preference-model.

English

Modeling human preferences is crucial for aligning foundation models with human values. Traditional reward modeling methods, such as the Bradley-Terry (BT) reward model, fall short in expressiveness, particularly in addressing intransitive preferences. Although supervised pair preference models (PairPM) can express general preferences, their implementation is highly ad-hoc and cannot guarantee a consistent preference probability of compared pairs. Additionally, they impose high computational costs due to their quadratic query complexity when comparing multiple responses. In this paper, we introduce preference representation learning, an approach that embeds responses into a latent space to capture intricate preference structures efficiently, achieving linear query complexity. Additionally, we propose preference score-based General Preference Optimization (GPO), which generalizes reward-based reinforcement learning from human feedback. Experimental results show that our General Preference representation model (GPM) outperforms the BT reward model on the RewardBench benchmark with a margin of up to 5.6% and effectively models cyclic preferences where any BT reward model behaves like a random guess. Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and MT-Bench, following the language model post-training with GPO and our general preference model, reveal substantial performance improvements with margins up to 9.3%. These findings indicate that our method may enhance the alignment of foundation models with nuanced human values. The code is available at https://github.com/general-preference/general-preference-model.

Modélisation générale des préférences avec des représentations de préférences pour l'alignement des modèles de langage

General Preference Modeling with Preference Representations for Aligning Language Models

papers.abstract

Support