Robuste Beloningsmodellering via Causale Rubrieken
Robust Reward Modeling via Causal Rubrics
June 19, 2025
Auteurs: Pragya Srivastava, Harman Singh, Rahul Madhavan, Gandharv Patil, Sravanti Addepalli, Arun Suggala, Rengarajan Aravamudhan, Soumya Sharma, Anirban Laha, Aravindan Raghuveer, Karthikeyan Shanmugam, Doina Precup
cs.AI
Samenvatting
Beloningsmodellen (RMs) zijn fundamenteel voor het afstemmen van grote taalmodellen (LLMs) via menselijke feedback, maar ze lijden vaak aan beloningsmanipulatie. Ze hebben de neiging om zich vast te klampen aan oppervlakkige of onterechte kenmerken, zoals responslengte of opmaak, en verwarren deze signalen, geleerd uit correlaties in de trainingsdata, met de echte oorzakelijke factoren van kwaliteit (bijv. feitelijkheid, relevantie). Dit gebeurt omdat standaard trainingsdoelen moeite hebben om deze factoren te ontwarren, wat leidt tot broze RMs en verkeerd afgestelde beleidsregels. Wij introduceren Crome (Causally Robust Reward Modeling), een nieuw raamwerk gebaseerd op een expliciet causaal model, ontworpen om beloningsmanipulatie te verminderen. Crome maakt gebruik van de volgende synthetische gerichte augmentaties tijdens de training: (1) Causale Augmentaties, paren die verschillen langs specifieke causale kenmerken, om gevoeligheid langs elk causaal kenmerk afzonderlijk af te dwingen, en (2) Neutrale Augmentaties, paren met gelijke labels die voornamelijk variëren in onterechte kenmerken, om invariantie langs onterechte kenmerken af te dwingen. Opmerkelijk is dat onze augmentaties worden geproduceerd zonder enige kennis van onterechte factoren, via interventies alleen langs causale richtlijnen, die worden geïdentificeerd door een orakel-LLM te bevragen. Empirisch presteert Crome aanzienlijk beter dan standaard referentiemodellen op RewardBench, met een verbetering van de gemiddelde nauwkeurigheid tot 5,4% en winsten tot 13,2% en 7,2% in specifieke categorieën. De robuustheid van Crome wordt verder bevestigd door de consistente winsten die worden behaald in een Best-of-N inferentie-instelling bij toenemende N, over verschillende benchmarks, waaronder de populaire RewardBench (die chat, chat-hard, veiligheid en redeneertaken omvat), de op veiligheid gerichte WildGuardTest, en de specifiek op redeneren gerichte GSM8k.
English
Reward models (RMs) are fundamental to aligning Large Language Models (LLMs)
via human feedback, yet they often suffer from reward hacking. They tend to
latch on to superficial or spurious attributes, such as response length or
formatting, mistaking these cues learned from correlations in training data for
the true causal drivers of quality (e.g., factuality, relevance). This occurs
because standard training objectives struggle to disentangle these factors,
leading to brittle RMs and misaligned policies. We introduce Crome (Causally
Robust Reward Modeling), a novel framework grounded in an explicit causal model
designed to mitigate reward hacking. Crome employs the following synthetic
targeted augmentations during training: (1) Causal Augmentations, which are
pairs that differ along specific causal attributes, to enforce sensitivity
along each causal attribute individually, and (2) Neutral Augmentations, which
are tie-label pairs varying primarily in spurious attributes, to enforce
invariance along spurious attributes. Notably, our augmentations are produced
without any knowledge of spurious factors, via answer interventions only along
causal rubrics, that are identified by querying an oracle LLM. Empirically,
Crome significantly outperforms standard baselines on RewardBench, improving
average accuracy by up to 5.4% and achieving gains of up to 13.2% and 7.2% in
specific categories. The robustness of Crome is further testified by the
consistent gains obtained in a Best-of-N inference setting across increasing N,
across various benchmarks, including the popular RewardBench (covering chat,
chat-hard, safety, and reasoning tasks), the safety-focused WildGuardTest, and
the reasoning-specific GSM8k.