RRM: Robuuste beloningsmodeltraining vermindert beloningsmanipulatie.
RRM: Robust Reward Model Training Mitigates Reward Hacking
September 20, 2024
Auteurs: Tianqi Liu, Wei Xiong, Jie Ren, Lichang Chen, Junru Wu, Rishabh Joshi, Yang Gao, Jiaming Shen, Zhen Qin, Tianhe Yu, Daniel Sohn, Anastasiia Makarova, Jeremiah Liu, Yuan Liu, Bilal Piot, Abe Ittycheriah, Aviral Kumar, Mohammad Saleh
cs.AI
Samenvatting
Beloningsmodellen (RMs) spelen een cruciale rol bij het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Traditionele RM-training, die vertrouwt op responsparen gekoppeld aan specifieke prompts, worstelt echter om prompt-gestuurde voorkeuren te onderscheiden van prompt-onafhankelijke artefacten, zoals lengte en opmaak van de respons. In dit werk onthullen we een fundamentele beperking van de huidige RM-trainingsmethoden, waar RMs er niet in slagen om effectief onderscheid te maken tussen contextuele signalen en irrelevante artefacten bij het bepalen van voorkeuren. Om dit aan te pakken, introduceren we een causaal kader dat voorkeuren leert onafhankelijk van deze artefacten en stellen we een nieuwe gegevensvermeerderingstechniek voor die is ontworpen om ze te elimineren. Uitgebreide experimenten tonen aan dat onze aanpak succesvol ongewenste artefacten filtert, resulterend in een robuuster beloningsmodel (RRM). Onze RRM verbetert de prestaties van een paarsgewijs beloningsmodel getraind op Gemma-2-9b-it, op RewardBench, waarbij de nauwkeurigheid stijgt van 80,61% naar 84,15%. Daarnaast trainen we twee DPO-beleidslijnen met zowel de RM als de RRM, waarbij wordt aangetoond dat de RRM aanzienlijk bijdraagt aan DPO-gealigneerde beleidslijnen, met verbetering van MT-Bench-scores van 7,27 naar 8,31 en lengte-gecontroleerde winstpercentages in AlpacaEval-2 van 33,46% naar 52,49%.
English
Reward models (RMs) play a pivotal role in aligning large language models
(LLMs) with human preferences. However, traditional RM training, which relies
on response pairs tied to specific prompts, struggles to disentangle
prompt-driven preferences from prompt-independent artifacts, such as response
length and format. In this work, we expose a fundamental limitation of current
RM training methods, where RMs fail to effectively distinguish between
contextual signals and irrelevant artifacts when determining preferences. To
address this, we introduce a causal framework that learns preferences
independent of these artifacts and propose a novel data augmentation technique
designed to eliminate them. Extensive experiments show that our approach
successfully filters out undesirable artifacts, yielding a more robust reward
model (RRM). Our RRM improves the performance of a pairwise reward model
trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to
84.15%. Additionally, we train two DPO policies using both the RM and RRM,
demonstrating that the RRM significantly enhances DPO-aligned policies,
improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in
AlpacaEval-2 from 33.46% to 52.49%.Summary
AI-Generated Summary