Autocorreção de Especificação: Mitigando o Hackeamento de Recompensas em Contexto Através de Refinamento em Tempo de Teste
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement
July 24, 2025
Autores: Víctor Gallego
cs.AI
Resumo
Modelos de linguagem (LMs) são suscetíveis ao hacking de recompensa em contexto, onde eles exploram falhas em especificações ou rubricas escritas contaminadas ou defeituosas para alcançar pontuações altas sem cumprir a verdadeira intenção do usuário. Introduzimos a Autocorreção de Especificação (SSC), uma nova estrutura em tempo de teste que permite a um LM identificar e corrigir falhas em sua própria especificação orientadora. A SSC emprega um processo de inferência em várias etapas, onde o modelo primeiro gera uma resposta com base em uma especificação potencialmente contaminada, critica sua saída e, em seguida, revisa a própria especificação para remover a brecha explorável. Uma resposta final e mais robusta é então gerada usando essa especificação autocorrigida. Em experimentos que abrangem tarefas de escrita criativa e codificação agentiva com vários LMs, demonstramos que, embora os modelos inicialmente manipulem especificações contaminadas em 50-70\% dos casos, o processo SSC reduz essa vulnerabilidade em mais de 90\%. Esse reparo dinâmico ocorre em tempo de inferência, não requer modificação de pesos e leva a um comportamento do modelo mais robustamente alinhado. Código disponível em https://github.com/vicgalle/specification-self-correction.
English
Language models (LMs) are susceptible to in-context reward hacking, where
they exploit flaws in tainted or faulty written specifications or rubrics to
achieve high scores without fulfilling the user's true intent. We introduce
Specification Self-Correction (SSC), a novel, test-time framework that enables
an LM to identify and correct flaws within its own guiding specification. SSC
employs a multi-step inference process where the model first generates a
response based on a potentially tainted specification, critiques its output,
and then revises the specification itself to remove the exploitable loophole. A
final, more robust response is then generated using this self-corrected
specification. Across experiments spanning creative writing and agentic coding
tasks with several LMs, we demonstrate that while models initially game tainted
specifications in 50-70\% of cases, the SSC process reduces this vulnerability
by over 90\%. This dynamic repair occurs at inference time, requires no weight
modification, and leads to more robustly aligned model behavior. Code at
https://github.com/vicgalle/specification-self-correction .