Aider ou guider ? Les ensembles de modèles de récompense atténuent mais n'éliminent pas le détournement des récompenses
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking
December 14, 2023
Auteurs: Jacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant
cs.AI
Résumé
Les modèles de récompense jouent un rôle clé dans l'alignement des applications de modèles de langage sur les préférences humaines. Cependant, cette configuration crée une incitation pour le modèle de langage à exploiter les erreurs du modèle de récompense pour obtenir une récompense estimée élevée, un phénomène souvent appelé "reward hacking". Une atténuation naturelle consiste à entraîner un ensemble de modèles de récompense, en agrégeant les sorties des modèles pour obtenir une estimation de récompense plus robuste. Nous explorons l'application des ensembles de récompense à l'alignement, à la fois pendant l'entraînement (via l'apprentissage par renforcement) et pendant l'inférence (via le réordonnancement). Premièrement, nous montrons que les modèles de récompense sont sous-spécifiés : des modèles de récompense qui performent de manière similaire en distribution peuvent produire des récompenses très différentes lorsqu'ils sont utilisés pour l'alignement, en raison d'un décalage de distribution. Deuxièmement, la sous-spécification entraîne une sur-optimisation, où l'alignement sur un modèle de récompense n'améliore pas la récompense mesurée par un autre modèle de récompense entraîné sur les mêmes données. Troisièmement, la sur-optimisation est atténuée par l'utilisation d'ensembles de récompense, et les ensembles qui varient par leurs graines de pré-entraînement conduisent à une meilleure généralisation que les ensembles qui diffèrent uniquement par leurs graines de fine-tuning, les deux surpassant les modèles de récompense individuels. Cependant, même les ensembles de récompense pré-entraînés n'éliminent pas le reward hacking : nous montrons plusieurs phénomènes qualitatifs de reward hacking qui ne sont pas atténués par l'ensemblage car tous les modèles de récompense dans l'ensemble présentent des schémas d'erreur similaires.
English
Reward models play a key role in aligning language model applications towards
human preferences. However, this setup creates an incentive for the language
model to exploit errors in the reward model to achieve high estimated reward, a
phenomenon often termed reward hacking. A natural mitigation is to train
an ensemble of reward models, aggregating over model outputs to obtain a more
robust reward estimate. We explore the application of reward ensembles to
alignment at both training time (through reinforcement learning) and inference
time (through reranking). First, we show that reward models are
underspecified: reward models that perform similarly in-distribution can
yield very different rewards when used in alignment, due to distribution shift.
Second, underspecification results in overoptimization, where alignment to one
reward model does not improve reward as measured by another reward model
trained on the same data. Third, overoptimization is mitigated by the use of
reward ensembles, and ensembles that vary by their pretraining seeds
lead to better generalization than ensembles that differ only by their
fine-tuning seeds, with both outperforming individual reward models.
However, even pretrain reward ensembles do not eliminate reward hacking: we
show several qualitative reward hacking phenomena that are not mitigated by
ensembling because all reward models in the ensemble exhibit similar error
patterns.