Helfen oder Hüten? Reward-Modell-Ensembles mildern, aber beseitigen nicht das Problem des Reward Hackings.
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking
December 14, 2023
Autoren: Jacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant
cs.AI
Zusammenfassung
Belohnungsmodelle spielen eine entscheidende Rolle bei der Ausrichtung von Sprachmodellanwendungen an menschlichen Präferenzen. Diese Konfiguration schafft jedoch einen Anreiz für das Sprachmodell, Fehler im Belohnungsmodell auszunutzen, um eine hohe geschätzte Belohnung zu erzielen – ein Phänomen, das oft als „Reward Hacking“ bezeichnet wird. Eine natürliche Gegenmaßnahme besteht darin, ein Ensemble von Belohnungsmodellen zu trainieren, deren Ausgaben aggregiert werden, um eine robustere Schätzung der Belohnung zu erhalten. Wir untersuchen die Anwendung von Belohnungsensembles zur Ausrichtung sowohl während der Trainingszeit (durch Reinforcement Learning) als auch während der Inferenzzeit (durch Neubewertung). Erstens zeigen wir, dass Belohnungsmodelle unterbestimmt sind: Belohnungsmodelle, die innerhalb der Verteilung ähnlich gut abschneiden, können bei der Ausrichtung aufgrund von Verteilungsverschiebungen sehr unterschiedliche Belohnungen liefern. Zweitens führt diese Unterbestimmtheit zu Überoptimierung, bei der die Ausrichtung auf ein Belohnungsmodell die Belohnung gemäß einem anderen, auf denselben Daten trainierten Belohnungsmodell nicht verbessert. Drittens wird die Überoptimierung durch den Einsatz von Belohnungsensembles gemildert, wobei Ensembles, die sich durch ihre Vorabtrainingsinitialisierungen unterscheiden, zu einer besseren Generalisierung führen als Ensembles, die sich nur durch ihre Feinabstimmungsinitialisierungen unterscheiden, wobei beide individuellen Belohnungsmodellen überlegen sind. Allerdings beseitigen selbst Vorabtrainingsensembles das Reward Hacking nicht vollständig: Wir zeigen mehrere qualitative Phänomene des Reward Hackings, die durch Ensembling nicht gemildert werden, da alle Belohnungsmodelle im Ensemble ähnliche Fehlermuster aufweisen.
English
Reward models play a key role in aligning language model applications towards
human preferences. However, this setup creates an incentive for the language
model to exploit errors in the reward model to achieve high estimated reward, a
phenomenon often termed reward hacking. A natural mitigation is to train
an ensemble of reward models, aggregating over model outputs to obtain a more
robust reward estimate. We explore the application of reward ensembles to
alignment at both training time (through reinforcement learning) and inference
time (through reranking). First, we show that reward models are
underspecified: reward models that perform similarly in-distribution can
yield very different rewards when used in alignment, due to distribution shift.
Second, underspecification results in overoptimization, where alignment to one
reward model does not improve reward as measured by another reward model
trained on the same data. Third, overoptimization is mitigated by the use of
reward ensembles, and ensembles that vary by their pretraining seeds
lead to better generalization than ensembles that differ only by their
fine-tuning seeds, with both outperforming individual reward models.
However, even pretrain reward ensembles do not eliminate reward hacking: we
show several qualitative reward hacking phenomena that are not mitigated by
ensembling because all reward models in the ensemble exhibit similar error
patterns.