Helpen of Hoeden? Beloningsmodel Ensembles Verminderen maar Elimineren Beloningsmanipulatie Niet

Samenvatting

Beloningsmodellen spelen een sleutelrol in het afstemmen van taalmodeltoepassingen op menselijke voorkeuren. Deze opzet creëert echter een prikkel voor het taalmodel om fouten in het beloningsmodel uit te buiten om een hoge geschatte beloning te behalen, een fenomeen dat vaak wordt aangeduid als 'reward hacking'. Een natuurlijke oplossing is het trainen van een ensemble van beloningsmodellen, waarbij de uitkomsten van de modellen worden geaggregeerd om een robuustere beloningsschatting te verkrijgen. We onderzoeken de toepassing van beloningsensembles voor afstemming tijdens zowel de trainingsfase (via reinforcement learning) als de inferentiefase (via herrangschikking). Ten eerste laten we zien dat beloningsmodellen ondergespecificeerd zijn: beloningsmodellen die vergelijkbaar presteren binnen de trainingsdistributie kunnen zeer verschillende beloningen opleveren wanneer ze worden gebruikt voor afstemming, vanwege distributieverschuiving. Ten tweede leidt ondergespecificeerdheid tot overoptimalisatie, waarbij afstemming op één beloningsmodel de beloning zoals gemeten door een ander beloningsmodel dat op dezelfde data is getraind, niet verbetert. Ten derde wordt overoptimalisatie verminderd door het gebruik van beloningsensembles, en ensembles die variëren in hun pre-trainingszaden leiden tot betere generalisatie dan ensembles die alleen verschillen in hun fine-tuningzaden, waarbij beide individuele beloningsmodellen overtreffen. Echter, zelfs pre-train beloningsensembles elimineren reward hacking niet volledig: we laten verschillende kwalitatieve reward hacking-fenomenen zien die niet worden verminderd door ensembling, omdat alle beloningsmodellen in het ensemble vergelijkbare foutpatronen vertonen.

English

Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed reward hacking. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are underspecified: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their pretraining seeds lead to better generalization than ensembles that differ only by their fine-tuning seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.

Helpen of Hoeden? Beloningsmodel Ensembles Verminderen maar Elimineren Beloningsmanipulatie Niet

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Samenvatting

Support