Aiutare o guidare? Gli ensemble di modelli di ricompensa mitigano ma non eliminano il fenomeno dell'hacking delle ricompense
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking
December 14, 2023
Autori: Jacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant
cs.AI
Abstract
I modelli di ricompensa svolgono un ruolo chiave nell'allineare le applicazioni dei modelli linguistici alle preferenze umane. Tuttavia, questa configurazione crea un incentivo per il modello linguistico a sfruttare gli errori nel modello di ricompensa per ottenere una ricompensa stimata elevata, un fenomeno spesso definito "reward hacking". Una mitigazione naturale consiste nell'addestrare un insieme di modelli di ricompensa, aggregando i loro output per ottenere una stima della ricompensa più robusta. Esploriamo l'applicazione degli ensemble di ricompensa all'allineamento sia durante l'addestramento (attraverso l'apprendimento per rinforzo) che durante l'inferenza (attraverso il riordinamento). In primo luogo, dimostriamo che i modelli di ricompensa sono sottospecificati: modelli di ricompensa che performano in modo simile in-distribuzione possono produrre ricompense molto diverse quando utilizzati per l'allineamento, a causa dello spostamento della distribuzione. In secondo luogo, la sottospecificazione porta a un'ottimizzazione eccessiva, in cui l'allineamento a un modello di ricompensa non migliora la ricompensa misurata da un altro modello di ricompensa addestrato sugli stessi dati. In terzo luogo, l'ottimizzazione eccessiva è mitigata dall'uso di ensemble di ricompensa, e gli ensemble che variano in base ai semi di pre-addestramento portano a una migliore generalizzazione rispetto agli ensemble che differiscono solo per i semi di fine-tuning, con entrambi che superano i singoli modelli di ricompensa. Tuttavia, anche gli ensemble di pre-addestramento non eliminano il reward hacking: mostriamo diversi fenomeni qualitativi di reward hacking che non sono mitigati dall'ensembling perché tutti i modelli di ricompensa nell'insieme presentano schemi di errore simili.
English
Reward models play a key role in aligning language model applications towards
human preferences. However, this setup creates an incentive for the language
model to exploit errors in the reward model to achieve high estimated reward, a
phenomenon often termed reward hacking. A natural mitigation is to train
an ensemble of reward models, aggregating over model outputs to obtain a more
robust reward estimate. We explore the application of reward ensembles to
alignment at both training time (through reinforcement learning) and inference
time (through reranking). First, we show that reward models are
underspecified: reward models that perform similarly in-distribution can
yield very different rewards when used in alignment, due to distribution shift.
Second, underspecification results in overoptimization, where alignment to one
reward model does not improve reward as measured by another reward model
trained on the same data. Third, overoptimization is mitigated by the use of
reward ensembles, and ensembles that vary by their pretraining seeds
lead to better generalization than ensembles that differ only by their
fine-tuning seeds, with both outperforming individual reward models.
However, even pretrain reward ensembles do not eliminate reward hacking: we
show several qualitative reward hacking phenomena that are not mitigated by
ensembling because all reward models in the ensemble exhibit similar error
patterns.