ChatPaper.aiChatPaper

Transformation et combinaison des récompenses pour l'alignement des grands modèles de langage

Transforming and Combining Rewards for Aligning Large Language Models

February 1, 2024
Auteurs: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI

Résumé

Une approche courante pour aligner les modèles de langage sur les préférences humaines consiste à apprendre d'abord un modèle de récompense à partir de données de préférences, puis à utiliser ce modèle de récompense pour mettre à jour le modèle de langage. Nous étudions deux problèmes étroitement liés qui surviennent dans cette approche. Premièrement, toute transformation monotone du modèle de récompense préserve le classement des préférences ; existe-t-il un choix qui soit « meilleur » que les autres ? Deuxièmement, nous souhaitons souvent aligner les modèles de langage sur plusieurs propriétés : comment devrions-nous combiner plusieurs modèles de récompense ? En utilisant une interprétation probabiliste de la procédure d'alignement, nous identifions un choix naturel de transformation pour (le cas courant des) récompenses apprises à partir de modèles de préférences de Bradley-Terry. Cette transformation dérivée possède deux propriétés importantes. Premièrement, elle met l'accent sur l'amélioration des sorties peu performantes, plutôt que sur celles qui obtiennent déjà de bons scores. Cela atténue à la fois le sous-apprentissage (où certaines requêtes ne sont pas améliorées) et le détournement de récompense (où le modèle apprend à exploiter une mauvaise spécification du modèle de récompense). Deuxièmement, elle permet une agrégation raisonnée des récompenses en reliant la sommation à la conjonction logique : la somme des récompenses transformées correspond à la probabilité que la sortie soit « bonne » pour toutes les propriétés mesurées, dans un sens que nous précisons. Les expériences d'alignement des modèles de langage pour qu'ils soient à la fois utiles et inoffensifs en utilisant l'apprentissage par renforcement à partir de feedback humain (RLHF) montrent des améliorations substantielles par rapport à l'approche de base (non transformée).
English
A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.
PDF121December 15, 2024