Rúbricas como Superficie de Ataque: Desviación Sutil de Preferencias en Evaluadores de LLM

Resumen

Las canalizaciones de evaluación y alineación para modelos de lenguaje grandes dependen cada vez más de evaluadores basados en LLM, cuyo comportamiento se guía por rúbricas en lenguaje natural y se valida mediante puntos de referencia. Identificamos una vulnerabilidad previamente poco reconocida en este flujo de trabajo, que denominamos Deriva de Preferencias Inducida por Rúbricas (RIPD). Incluso cuando las ediciones de las rúbricas superan la validación de referencia, aún pueden producir cambios sistemáticos y direccionales en las preferencias de un evaluador en dominios objetivo. Debido a que las rúbricas sirven como una interfaz de decisión de alto nivel, esta deriva puede surgir de ediciones aparentemente naturales que preservan los criterios y permanecer difícil de detectar mediante métricas agregadas de referencia o verificaciones puntuales limitadas. Además, demostramos que esta vulnerabilidad puede explotarse mediante ataques de preferencia basados en rúbricas, en los que las ediciones de rúbricas compatibles con los puntos de referencia desvían las evaluaciones de una referencia humana fija o confiable en dominios objetivo, induciendo sistemáticamente RIPD y reduciendo la precisión en el dominio objetivo hasta en un 9.5% (utilidad) y un 27.9% (inocuidad). Cuando estas evaluaciones se utilizan para generar etiquetas de preferencia para el posterior entrenamiento, el sesgo inducido se propaga a través de las canalizaciones de alineación y se internaliza en las políticas entrenadas. Esto conduce a una deriva persistente y sistemática en el comportamiento del modelo. En general, nuestros hallazgos destacan las rúbricas de evaluación como una interfaz de control sensible y manipulable, revelando un riesgo de alineación a nivel del sistema que va más allá de la confiabilidad del evaluador. El código está disponible en: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Advertencia: Ciertas secciones pueden contener contenido potencialmente dañino que puede no ser apropiado para todos los lectores.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Rúbricas como Superficie de Ataque: Desviación Sutil de Preferencias en Evaluadores de LLM

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Resumen

Support