ChatPaper.aiChatPaper

Modélisation robuste des récompenses via des rubriques causales

Robust Reward Modeling via Causal Rubrics

June 19, 2025
Auteurs: Pragya Srivastava, Harman Singh, Rahul Madhavan, Gandharv Patil, Sravanti Addepalli, Arun Suggala, Rengarajan Aravamudhan, Soumya Sharma, Anirban Laha, Aravindan Raghuveer, Karthikeyan Shanmugam, Doina Precup
cs.AI

Résumé

Les modèles de récompense (RMs) sont fondamentaux pour aligner les grands modèles de langage (LLMs) via le feedback humain, mais ils souffrent souvent de "reward hacking". Ils ont tendance à se focaliser sur des attributs superficiels ou fallacieux, tels que la longueur de la réponse ou le formatage, confondant ces indices appris à partir de corrélations dans les données d'entraînement avec les véritables facteurs causaux de qualité (par exemple, la factualité, la pertinence). Cela se produit parce que les objectifs d'entraînement standards peinent à démêler ces facteurs, conduisant à des RMs fragiles et à des politiques mal alignées. Nous introduisons Crome (Causally Robust Reward Modeling), un nouveau cadre fondé sur un modèle causal explicite conçu pour atténuer le reward hacking. Crome utilise les augmentations synthétiques ciblées suivantes pendant l'entraînement : (1) les Augmentations Causales, qui sont des paires différant selon des attributs causaux spécifiques, pour renforcer la sensibilité à chaque attribut causal individuellement, et (2) les Augmentations Neutres, qui sont des paires à étiquette égale variant principalement selon des attributs fallacieux, pour renforcer l'invariance par rapport à ces attributs. Notamment, nos augmentations sont produites sans aucune connaissance des facteurs fallacieux, via des interventions uniquement sur les rubriques causales, identifiées en interrogeant un LLM oracle. Empiriquement, Crome surpasse significativement les bases de référence standards sur RewardBench, améliorant la précision moyenne jusqu'à 5,4 % et obtenant des gains allant jusqu'à 13,2 % et 7,2 % dans des catégories spécifiques. La robustesse de Crome est en outre attestée par les gains constants obtenus dans un cadre d'inférence Best-of-N pour des N croissants, à travers divers benchmarks, notamment le populaire RewardBench (couvrant les tâches de chat, chat-hard, sécurité et raisonnement), le WildGuardTest axé sur la sécurité, et le GSM8k spécifique au raisonnement.
English
Reward models (RMs) are fundamental to aligning Large Language Models (LLMs) via human feedback, yet they often suffer from reward hacking. They tend to latch on to superficial or spurious attributes, such as response length or formatting, mistaking these cues learned from correlations in training data for the true causal drivers of quality (e.g., factuality, relevance). This occurs because standard training objectives struggle to disentangle these factors, leading to brittle RMs and misaligned policies. We introduce Crome (Causally Robust Reward Modeling), a novel framework grounded in an explicit causal model designed to mitigate reward hacking. Crome employs the following synthetic targeted augmentations during training: (1) Causal Augmentations, which are pairs that differ along specific causal attributes, to enforce sensitivity along each causal attribute individually, and (2) Neutral Augmentations, which are tie-label pairs varying primarily in spurious attributes, to enforce invariance along spurious attributes. Notably, our augmentations are produced without any knowledge of spurious factors, via answer interventions only along causal rubrics, that are identified by querying an oracle LLM. Empirically, Crome significantly outperforms standard baselines on RewardBench, improving average accuracy by up to 5.4% and achieving gains of up to 13.2% and 7.2% in specific categories. The robustness of Crome is further testified by the consistent gains obtained in a Best-of-N inference setting across increasing N, across various benchmarks, including the popular RewardBench (covering chat, chat-hard, safety, and reasoning tasks), the safety-focused WildGuardTest, and the reasoning-specific GSM8k.
PDF62June 24, 2025