Autocorrección de Especificaciones: Mitigación del Hackeo de Recompensas en Contexto mediante Refinamiento en Tiempo de Prueba

Resumen

Los modelos de lenguaje (LMs) son susceptibles al "hacking de recompensas en contexto", donde explotan fallas en especificaciones o rúbricas defectuosas o contaminadas para obtener puntuaciones altas sin cumplir con la verdadera intención del usuario. Introducimos la Autocorrección de Especificaciones (SSC, por sus siglas en inglés), un marco novedoso en tiempo de prueba que permite a un LM identificar y corregir fallas dentro de su propia especificación guía. SSC emplea un proceso de inferencia de múltiples pasos en el que el modelo primero genera una respuesta basada en una especificación potencialmente contaminada, critica su salida y luego revisa la especificación misma para eliminar el vacío explotable. Finalmente, se genera una respuesta más robusta utilizando esta especificación autocorregida. A través de experimentos que abarcan tareas de escritura creativa y codificación agentiva con varios LMs, demostramos que, aunque los modelos inicialmente aprovechan especificaciones contaminadas en el 50-70\% de los casos, el proceso SSC reduce esta vulnerabilidad en más del 90\%. Esta reparación dinámica ocurre en tiempo de inferencia, no requiere modificación de pesos y conduce a un comportamiento del modelo más robustamente alineado. Código disponible en https://github.com/vicgalle/specification-self-correction.

English

Language models (LMs) are susceptible to in-context reward hacking, where they exploit flaws in tainted or faulty written specifications or rubrics to achieve high scores without fulfilling the user's true intent. We introduce Specification Self-Correction (SSC), a novel, test-time framework that enables an LM to identify and correct flaws within its own guiding specification. SSC employs a multi-step inference process where the model first generates a response based on a potentially tainted specification, critiques its output, and then revises the specification itself to remove the exploitable loophole. A final, more robust response is then generated using this self-corrected specification. Across experiments spanning creative writing and agentic coding tasks with several LMs, we demonstrate that while models initially game tainted specifications in 50-70\% of cases, the SSC process reduces this vulnerability by over 90\%. This dynamic repair occurs at inference time, requires no weight modification, and leads to more robustly aligned model behavior. Code at https://github.com/vicgalle/specification-self-correction .

Autocorrección de Especificaciones: Mitigación del Hackeo de Recompensas en Contexto mediante Refinamiento en Tiempo de Prueba

Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Resumen

Support