Aiutare o guidare? Gli ensemble di modelli di ricompensa mitigano ma non eliminano il fenomeno dell'hacking delle ricompense

Abstract

I modelli di ricompensa svolgono un ruolo chiave nell'allineare le applicazioni dei modelli linguistici alle preferenze umane. Tuttavia, questa configurazione crea un incentivo per il modello linguistico a sfruttare gli errori nel modello di ricompensa per ottenere una ricompensa stimata elevata, un fenomeno spesso definito "reward hacking". Una mitigazione naturale consiste nell'addestrare un insieme di modelli di ricompensa, aggregando i loro output per ottenere una stima della ricompensa più robusta. Esploriamo l'applicazione degli ensemble di ricompensa all'allineamento sia durante l'addestramento (attraverso l'apprendimento per rinforzo) che durante l'inferenza (attraverso il riordinamento). In primo luogo, dimostriamo che i modelli di ricompensa sono sottospecificati: modelli di ricompensa che performano in modo simile in-distribuzione possono produrre ricompense molto diverse quando utilizzati per l'allineamento, a causa dello spostamento della distribuzione. In secondo luogo, la sottospecificazione porta a un'ottimizzazione eccessiva, in cui l'allineamento a un modello di ricompensa non migliora la ricompensa misurata da un altro modello di ricompensa addestrato sugli stessi dati. In terzo luogo, l'ottimizzazione eccessiva è mitigata dall'uso di ensemble di ricompensa, e gli ensemble che variano in base ai semi di pre-addestramento portano a una migliore generalizzazione rispetto agli ensemble che differiscono solo per i semi di fine-tuning, con entrambi che superano i singoli modelli di ricompensa. Tuttavia, anche gli ensemble di pre-addestramento non eliminano il reward hacking: mostriamo diversi fenomeni qualitativi di reward hacking che non sono mitigati dall'ensembling perché tutti i modelli di ricompensa nell'insieme presentano schemi di errore simili.

English

Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed reward hacking. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are underspecified: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their pretraining seeds lead to better generalization than ensembles that differ only by their fine-tuning seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.

Aiutare o guidare? Gli ensemble di modelli di ricompensa mitigano ma non eliminano il fenomeno dell'hacking delle ricompense

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Abstract

Support