ChatPaper.aiChatPaper

Modelagem Robusta de Recompensas via Rúbricas Causais

Robust Reward Modeling via Causal Rubrics

June 19, 2025
Autores: Pragya Srivastava, Harman Singh, Rahul Madhavan, Gandharv Patil, Sravanti Addepalli, Arun Suggala, Rengarajan Aravamudhan, Soumya Sharma, Anirban Laha, Aravindan Raghuveer, Karthikeyan Shanmugam, Doina Precup
cs.AI

Resumo

Modelos de recompensa (RMs) são fundamentais para alinhar Modelos de Linguagem de Grande Escala (LLMs) por meio de feedback humano, mas frequentemente sofrem com o problema de "reward hacking". Eles tendem a se fixar em atributos superficiais ou espúrios, como o comprimento da resposta ou a formatação, confundindo essas pistas aprendidas a partir de correlações nos dados de treinamento com os verdadeiros fatores causais de qualidade (por exemplo, factualidade, relevância). Isso ocorre porque os objetivos padrão de treinamento têm dificuldade em separar esses fatores, resultando em RMs frágeis e políticas desalinhadas. Introduzimos o Crome (Modelagem de Recompensa Causalmente Robusta), uma nova estrutura baseada em um modelo causal explícito projetado para mitigar o reward hacking. O Crome emprega as seguintes ampliações sintéticas direcionadas durante o treinamento: (1) Ampliações Causais, que são pares que diferem em atributos causais específicos, para reforçar a sensibilidade a cada atributo causal individualmente, e (2) Ampliações Neutras, que são pares com rótulos de empate que variam principalmente em atributos espúrios, para reforçar a invariância em relação a atributos espúrios. Notavelmente, nossas ampliações são produzidas sem qualquer conhecimento prévio de fatores espúrios, por meio de intervenções apenas em rubricas causais, que são identificadas consultando um LLM oráculo. Empiricamente, o Crome supera significativamente as linhas de base padrão no RewardBench, melhorando a precisão média em até 5,4% e alcançando ganhos de até 13,2% e 7,2% em categorias específicas. A robustez do Crome é ainda mais comprovada pelos ganhos consistentes obtidos em uma configuração de inferência Best-of-N com N crescente, em vários benchmarks, incluindo o popular RewardBench (que abrange tarefas de chat, chat-hard, segurança e raciocínio), o WildGuardTest focado em segurança e o GSM8k específico para raciocínio.
English
Reward models (RMs) are fundamental to aligning Large Language Models (LLMs) via human feedback, yet they often suffer from reward hacking. They tend to latch on to superficial or spurious attributes, such as response length or formatting, mistaking these cues learned from correlations in training data for the true causal drivers of quality (e.g., factuality, relevance). This occurs because standard training objectives struggle to disentangle these factors, leading to brittle RMs and misaligned policies. We introduce Crome (Causally Robust Reward Modeling), a novel framework grounded in an explicit causal model designed to mitigate reward hacking. Crome employs the following synthetic targeted augmentations during training: (1) Causal Augmentations, which are pairs that differ along specific causal attributes, to enforce sensitivity along each causal attribute individually, and (2) Neutral Augmentations, which are tie-label pairs varying primarily in spurious attributes, to enforce invariance along spurious attributes. Notably, our augmentations are produced without any knowledge of spurious factors, via answer interventions only along causal rubrics, that are identified by querying an oracle LLM. Empirically, Crome significantly outperforms standard baselines on RewardBench, improving average accuracy by up to 5.4% and achieving gains of up to 13.2% and 7.2% in specific categories. The robustness of Crome is further testified by the consistent gains obtained in a Best-of-N inference setting across increasing N, across various benchmarks, including the popular RewardBench (covering chat, chat-hard, safety, and reasoning tasks), the safety-focused WildGuardTest, and the reasoning-specific GSM8k.
PDF83June 24, 2025