Autocorreção de Especificação: Mitigando o Hackeamento de Recompensas em Contexto Através de Refinamento em Tempo de Teste

Resumo

Modelos de linguagem (LMs) são suscetíveis ao hacking de recompensa em contexto, onde eles exploram falhas em especificações ou rubricas escritas contaminadas ou defeituosas para alcançar pontuações altas sem cumprir a verdadeira intenção do usuário. Introduzimos a Autocorreção de Especificação (SSC), uma nova estrutura em tempo de teste que permite a um LM identificar e corrigir falhas em sua própria especificação orientadora. A SSC emprega um processo de inferência em várias etapas, onde o modelo primeiro gera uma resposta com base em uma especificação potencialmente contaminada, critica sua saída e, em seguida, revisa a própria especificação para remover a brecha explorável. Uma resposta final e mais robusta é então gerada usando essa especificação autocorrigida. Em experimentos que abrangem tarefas de escrita criativa e codificação agentiva com vários LMs, demonstramos que, embora os modelos inicialmente manipulem especificações contaminadas em 50-70\% dos casos, o processo SSC reduz essa vulnerabilidade em mais de 90\%. Esse reparo dinâmico ocorre em tempo de inferência, não requer modificação de pesos e leva a um comportamento do modelo mais robustamente alinhado. Código disponível em https://github.com/vicgalle/specification-self-correction.

English

Language models (LMs) are susceptible to in-context reward hacking, where they exploit flaws in tainted or faulty written specifications or rubrics to achieve high scores without fulfilling the user's true intent. We introduce Specification Self-Correction (SSC), a novel, test-time framework that enables an LM to identify and correct flaws within its own guiding specification. SSC employs a multi-step inference process where the model first generates a response based on a potentially tainted specification, critiques its output, and then revises the specification itself to remove the exploitable loophole. A final, more robust response is then generated using this self-corrected specification. Across experiments spanning creative writing and agentic coding tasks with several LMs, we demonstrate that while models initially game tainted specifications in 50-70\% of cases, the SSC process reduces this vulnerability by over 90\%. This dynamic repair occurs at inference time, requires no weight modification, and leads to more robustly aligned model behavior. Code at https://github.com/vicgalle/specification-self-correction .

Autocorreção de Especificação: Mitigando o Hackeamento de Recompensas em Contexto Através de Refinamento em Tempo de Teste

Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Resumo

Support