Spezifikations-Selbstkorrektur: Minderung von In-Context-Reward-Hacking durch Testzeit-Verfeinerung

papers.abstract

Sprachmodelle (LMs) sind anfällig für In-Context-Reward-Hacking, bei dem sie Schwächen in fehlerhaften oder manipulierten schriftlichen Spezifikationen oder Bewertungskriterien ausnutzen, um hohe Bewertungen zu erzielen, ohne die eigentliche Absicht des Nutzers zu erfüllen. Wir stellen Specification Self-Correction (SSC) vor, ein neuartiges Framework zur Laufzeit, das einem LM ermöglicht, Schwächen in seiner eigenen Leitlinie zu identifizieren und zu korrigieren. SSC verwendet einen mehrstufigen Inferenzprozess, bei dem das Modell zunächst eine Antwort auf Basis einer potenziell fehlerhaften Spezifikation generiert, seine Ausgabe kritisch bewertet und dann die Spezifikation selbst überarbeitet, um ausnutzbare Lücken zu schließen. Eine endgültige, robustere Antwort wird anschließend unter Verwendung dieser selbstkorrigierten Spezifikation erzeugt. In Experimenten, die kreatives Schreiben und agentenbasiertes Codieren mit mehreren LMs umfassen, zeigen wir, dass Modelle zwar zunächst in 50–70\% der Fälle fehlerhafte Spezifikationen ausnutzen, der SSC-Prozess diese Anfälligkeit jedoch um über 90\% reduziert. Diese dynamische Reparatur erfolgt zur Laufzeit, erfordert keine Gewichtsänderungen und führt zu einem robusteren, besser ausgerichteten Modellverhalten. Code unter https://github.com/vicgalle/specification-self-corction.

English

Language models (LMs) are susceptible to in-context reward hacking, where they exploit flaws in tainted or faulty written specifications or rubrics to achieve high scores without fulfilling the user's true intent. We introduce Specification Self-Correction (SSC), a novel, test-time framework that enables an LM to identify and correct flaws within its own guiding specification. SSC employs a multi-step inference process where the model first generates a response based on a potentially tainted specification, critiques its output, and then revises the specification itself to remove the exploitable loophole. A final, more robust response is then generated using this self-corrected specification. Across experiments spanning creative writing and agentic coding tasks with several LMs, we demonstrate that while models initially game tainted specifications in 50-70\% of cases, the SSC process reduces this vulnerability by over 90\%. This dynamic repair occurs at inference time, requires no weight modification, and leads to more robustly aligned model behavior. Code at https://github.com/vicgalle/specification-self-correction .

Spezifikations-Selbstkorrektur: Minderung von In-Context-Reward-Hacking durch Testzeit-Verfeinerung

Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

papers.abstract

Support