Specificatie Zelfcorrectie: Het Verminderen van In-Context Beloningsmanipulatie Door Testtijd Verfijning

Samenvatting

Taalmodellen (LMs) zijn vatbaar voor in-context beloningsmanipulatie, waarbij ze misbruik maken van fouten in verontreinigde of gebrekkige geschreven specificaties of rubrics om hoge scores te behalen zonder de werkelijke intentie van de gebruiker te vervullen. We introduceren Specificatie Zelfcorrectie (SSC), een nieuw, testtijd-framework dat een LM in staat stelt om fouten in zijn eigen leidende specificatie te identificeren en te corrigeren. SSC maakt gebruik van een meerstaps inferentieproces waarbij het model eerst een reactie genereert op basis van een mogelijk verontreinigde specificatie, zijn output beoordeelt, en vervolgens de specificatie zelf herziet om het uitbuitbare lek te verwijderen. Een definitieve, robuustere reactie wordt vervolgens gegenereerd met behulp van deze zelf-gecorrigeerde specificatie. In experimenten die creatief schrijven en agent-gecodeerde taken omvatten met verschillende LMs, tonen we aan dat terwijl modellen aanvankelijk in 50-70\% van de gevallen misbruik maken van verontreinigde specificaties, het SSC-proces deze kwetsbaarheid met meer dan 90\% vermindert. Deze dynamische reparatie vindt plaats tijdens inferentie, vereist geen gewichtsaanpassing, en leidt tot robuuster uitgelijnd modelgedrag. Code is beschikbaar op https://github.com/vicgalle/specification-self-correction.

English

Language models (LMs) are susceptible to in-context reward hacking, where they exploit flaws in tainted or faulty written specifications or rubrics to achieve high scores without fulfilling the user's true intent. We introduce Specification Self-Correction (SSC), a novel, test-time framework that enables an LM to identify and correct flaws within its own guiding specification. SSC employs a multi-step inference process where the model first generates a response based on a potentially tainted specification, critiques its output, and then revises the specification itself to remove the exploitable loophole. A final, more robust response is then generated using this self-corrected specification. Across experiments spanning creative writing and agentic coding tasks with several LMs, we demonstrate that while models initially game tainted specifications in 50-70\% of cases, the SSC process reduces this vulnerability by over 90\%. This dynamic repair occurs at inference time, requires no weight modification, and leads to more robustly aligned model behavior. Code at https://github.com/vicgalle/specification-self-correction .

Specificatie Zelfcorrectie: Het Verminderen van In-Context Beloningsmanipulatie Door Testtijd Verfijning

Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Samenvatting

Support