Specificatie Zelfcorrectie: Het Verminderen van In-Context Beloningsmanipulatie Door Testtijd Verfijning
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement
July 24, 2025
Auteurs: Víctor Gallego
cs.AI
Samenvatting
Taalmodellen (LMs) zijn vatbaar voor in-context beloningsmanipulatie, waarbij ze misbruik maken van fouten in verontreinigde of gebrekkige geschreven specificaties of rubrics om hoge scores te behalen zonder de werkelijke intentie van de gebruiker te vervullen. We introduceren Specificatie Zelfcorrectie (SSC), een nieuw, testtijd-framework dat een LM in staat stelt om fouten in zijn eigen leidende specificatie te identificeren en te corrigeren. SSC maakt gebruik van een meerstaps inferentieproces waarbij het model eerst een reactie genereert op basis van een mogelijk verontreinigde specificatie, zijn output beoordeelt, en vervolgens de specificatie zelf herziet om het uitbuitbare lek te verwijderen. Een definitieve, robuustere reactie wordt vervolgens gegenereerd met behulp van deze zelf-gecorrigeerde specificatie. In experimenten die creatief schrijven en agent-gecodeerde taken omvatten met verschillende LMs, tonen we aan dat terwijl modellen aanvankelijk in 50-70\% van de gevallen misbruik maken van verontreinigde specificaties, het SSC-proces deze kwetsbaarheid met meer dan 90\% vermindert. Deze dynamische reparatie vindt plaats tijdens inferentie, vereist geen gewichtsaanpassing, en leidt tot robuuster uitgelijnd modelgedrag. Code is beschikbaar op https://github.com/vicgalle/specification-self-correction.
English
Language models (LMs) are susceptible to in-context reward hacking, where
they exploit flaws in tainted or faulty written specifications or rubrics to
achieve high scores without fulfilling the user's true intent. We introduce
Specification Self-Correction (SSC), a novel, test-time framework that enables
an LM to identify and correct flaws within its own guiding specification. SSC
employs a multi-step inference process where the model first generates a
response based on a potentially tainted specification, critiques its output,
and then revises the specification itself to remove the exploitable loophole. A
final, more robust response is then generated using this self-corrected
specification. Across experiments spanning creative writing and agentic coding
tasks with several LMs, we demonstrate that while models initially game tainted
specifications in 50-70\% of cases, the SSC process reduces this vulnerability
by over 90\%. This dynamic repair occurs at inference time, requires no weight
modification, and leads to more robustly aligned model behavior. Code at
https://github.com/vicgalle/specification-self-correction .