Auto-correction des spécifications : Atténuation du détournement de récompense en contexte par un raffinement au moment du test

papers.abstract

Les modèles de langage (LMs) sont vulnérables au piratage de récompenses en contexte, où ils exploitent les failles dans des spécifications ou grilles d'évaluation erronées ou biaisées pour obtenir des scores élevés sans répondre à l'intention réelle de l'utilisateur. Nous introduisons l'auto-correction de spécification (Specification Self-Correction, SSC), un cadre novateur au moment de l'inférence qui permet à un LM d'identifier et de corriger les défauts dans sa propre spécification directrice. SSC utilise un processus d'inférence en plusieurs étapes où le modèle génère d'abord une réponse basée sur une spécification potentiellement biaisée, critique sa sortie, puis révise la spécification elle-même pour éliminer la faille exploitable. Une réponse finale, plus robuste, est ensuite générée en utilisant cette spécification auto-corrigée. À travers des expériences couvrant des tâches d'écriture créative et de codage agentique avec plusieurs LMs, nous démontrons que si les modèles exploitent initialement des spécifications biaisées dans 50 à 70 % des cas, le processus SSC réduit cette vulnérabilité de plus de 90 %. Cette réparation dynamique se produit au moment de l'inférence, ne nécessite aucune modification des poids, et conduit à un comportement du modèle plus robustement aligné. Code disponible à l'adresse https://github.com/vicgalle/specification-self-correction.

English

Language models (LMs) are susceptible to in-context reward hacking, where they exploit flaws in tainted or faulty written specifications or rubrics to achieve high scores without fulfilling the user's true intent. We introduce Specification Self-Correction (SSC), a novel, test-time framework that enables an LM to identify and correct flaws within its own guiding specification. SSC employs a multi-step inference process where the model first generates a response based on a potentially tainted specification, critiques its output, and then revises the specification itself to remove the exploitable loophole. A final, more robust response is then generated using this self-corrected specification. Across experiments spanning creative writing and agentic coding tasks with several LMs, we demonstrate that while models initially game tainted specifications in 50-70\% of cases, the SSC process reduces this vulnerability by over 90\%. This dynamic repair occurs at inference time, requires no weight modification, and leads to more robustly aligned model behavior. Code at https://github.com/vicgalle/specification-self-correction .

Auto-correction des spécifications : Atténuation du détournement de récompense en contexte par un raffinement au moment du test

Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

papers.abstract

Support