ChatPaper.aiChatPaper

Robuste Belohnungsmodellierung durch kausale Bewertungsraster

Robust Reward Modeling via Causal Rubrics

June 19, 2025
Autoren: Pragya Srivastava, Harman Singh, Rahul Madhavan, Gandharv Patil, Sravanti Addepalli, Arun Suggala, Rengarajan Aravamudhan, Soumya Sharma, Anirban Laha, Aravindan Raghuveer, Karthikeyan Shanmugam, Doina Precup
cs.AI

Zusammenfassung

Belohnungsmodelle (RMs) sind grundlegend für die Ausrichtung von Large Language Models (LLMs) durch menschliches Feedback, leiden jedoch häufig unter Reward Hacking. Sie neigen dazu, sich an oberflächliche oder trügerische Attribute wie Antwortlänge oder Formatierung zu klammern und verwechseln diese aus Korrelationen in den Trainingsdaten gelernten Hinweise mit den tatsächlichen kausalen Treibern von Qualität (z. B. Faktentreue, Relevanz). Dies geschieht, weil standardmäßige Trainingsziele Schwierigkeiten haben, diese Faktoren zu entwirren, was zu brüchigen RMs und fehlausgerichteten Politiken führt. Wir stellen Crome (Causally Robust Reward Modeling) vor, ein neuartiges Framework, das auf einem expliziten Kausalmodell basiert und darauf abzielt, Reward Hacking zu mildern. Crome verwendet während des Trainings die folgenden synthetischen, gezielten Erweiterungen: (1) Kausale Erweiterungen, bei denen es sich um Paare handelt, die sich entlang spezifischer kausaler Attribute unterscheiden, um die Sensitivität entlang jedes kausalen Attributs individuell zu erzwingen, und (2) Neutrale Erweiterungen, bei denen es sich um Paare mit Gleichheitslabel handelt, die sich hauptsächlich in trügerischen Attributen unterscheiden, um Invarianz entlang trügerischer Attribute zu erzwingen. Bemerkenswerterweise werden unsere Erweiterungen ohne Kenntnis trügerischer Faktoren erzeugt, indem nur Eingriffe in Antworten entlang kausaler Kriterien vorgenommen werden, die durch Abfragen eines Orakel-LLMs identifiziert werden. Empirisch übertrifft Crome Standard-Baselines auf RewardBench deutlich, verbessert die durchschnittliche Genauigkeit um bis zu 5,4 % und erzielt Gewinne von bis zu 13,2 % und 7,2 % in bestimmten Kategorien. Die Robustheit von Crome wird weiter durch die konsistenten Gewinne in einem Best-of-N-Inferenz-Setting bei steigendem N über verschiedene Benchmarks hinweg belegt, darunter das beliebte RewardBench (das Chat-, Chat-Hard-, Sicherheits- und Denkaufgaben abdeckt), der sicherheitsfokussierte WildGuardTest und der speziell auf Denkaufgaben ausgerichtete GSM8k.
English
Reward models (RMs) are fundamental to aligning Large Language Models (LLMs) via human feedback, yet they often suffer from reward hacking. They tend to latch on to superficial or spurious attributes, such as response length or formatting, mistaking these cues learned from correlations in training data for the true causal drivers of quality (e.g., factuality, relevance). This occurs because standard training objectives struggle to disentangle these factors, leading to brittle RMs and misaligned policies. We introduce Crome (Causally Robust Reward Modeling), a novel framework grounded in an explicit causal model designed to mitigate reward hacking. Crome employs the following synthetic targeted augmentations during training: (1) Causal Augmentations, which are pairs that differ along specific causal attributes, to enforce sensitivity along each causal attribute individually, and (2) Neutral Augmentations, which are tie-label pairs varying primarily in spurious attributes, to enforce invariance along spurious attributes. Notably, our augmentations are produced without any knowledge of spurious factors, via answer interventions only along causal rubrics, that are identified by querying an oracle LLM. Empirically, Crome significantly outperforms standard baselines on RewardBench, improving average accuracy by up to 5.4% and achieving gains of up to 13.2% and 7.2% in specific categories. The robustness of Crome is further testified by the consistent gains obtained in a Best-of-N inference setting across increasing N, across various benchmarks, including the popular RewardBench (covering chat, chat-hard, safety, and reasoning tasks), the safety-focused WildGuardTest, and the reasoning-specific GSM8k.
PDF62June 24, 2025