RRM: Robuuste beloningsmodeltraining vermindert beloningsmanipulatie.

Samenvatting

Beloningsmodellen (RMs) spelen een cruciale rol bij het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Traditionele RM-training, die vertrouwt op responsparen gekoppeld aan specifieke prompts, worstelt echter om prompt-gestuurde voorkeuren te onderscheiden van prompt-onafhankelijke artefacten, zoals lengte en opmaak van de respons. In dit werk onthullen we een fundamentele beperking van de huidige RM-trainingsmethoden, waar RMs er niet in slagen om effectief onderscheid te maken tussen contextuele signalen en irrelevante artefacten bij het bepalen van voorkeuren. Om dit aan te pakken, introduceren we een causaal kader dat voorkeuren leert onafhankelijk van deze artefacten en stellen we een nieuwe gegevensvermeerderingstechniek voor die is ontworpen om ze te elimineren. Uitgebreide experimenten tonen aan dat onze aanpak succesvol ongewenste artefacten filtert, resulterend in een robuuster beloningsmodel (RRM). Onze RRM verbetert de prestaties van een paarsgewijs beloningsmodel getraind op Gemma-2-9b-it, op RewardBench, waarbij de nauwkeurigheid stijgt van 80,61% naar 84,15%. Daarnaast trainen we twee DPO-beleidslijnen met zowel de RM als de RRM, waarbij wordt aangetoond dat de RRM aanzienlijk bijdraagt aan DPO-gealigneerde beleidslijnen, met verbetering van MT-Bench-scores van 7,27 naar 8,31 en lengte-gecontroleerde winstpercentages in AlpacaEval-2 van 33,46% naar 52,49%.

English

Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.

RRM: Robuuste beloningsmodeltraining vermindert beloningsmanipulatie.

RRM: Robust Reward Model Training Mitigates Reward Hacking

Samenvatting

Support