Rubricas como Superfície de Ataque: Desvio de Preferência Dissimulado em Juízes de LLM

Resumo

Os pipelines de avaliação e alinhamento para modelos de linguagem de grande porte dependem cada vez mais de juízes baseados em LLM, cujo comportamento é orientado por rubricas em linguagem natural e validado em benchmarks. Identificamos uma vulnerabilidade previamente sub-reconhecida neste fluxo de trabalho, que denominamos Desvio de Preferência Induzido por Rubrica (RIPD). Mesmo quando as edições de rubrica passam na validação do benchmark, elas ainda podem produzir mudanças sistemáticas e direcionais nas preferências de um juízo em domínios de destino. Como as rubricas servem como uma interface de decisão de alto nível, tal desvio pode emergir de edições aparentemente naturais e que preservam critérios, permanecendo difícil de detectar por meio de métricas agregadas de benchmark ou verificações pontuais limitadas. Mostramos ainda que essa vulnerabilidade pode ser explorada por meio de ataques de preferência baseados em rubrica, nos quais edições de rubrica conformes com o benchmark direcionam os julgamentos para longe de uma referência humana fixa ou confiável em domínios de destino, induzindo sistematicamente o RIPD e reduzindo a precisão no domínio de destino em até 9,5% (utilidade) e 27,9% (inocuidade). Quando esses julgamentos são usados para gerar rótulos de preferência para o pós-treinamento downstream, o viés induzido propaga-se pelos pipelines de alinhamento e é internalizado nas políticas treinadas. Isso leva a um desvio persistente e sistemático no comportamento do modelo. No geral, nossas descobertas destacam as rubricas de avaliação como uma interface de controle sensível e manipulável, revelando um risco de alinhamento em nível de sistema que vai além da confiabilidade do avaliador. O código está disponível em: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Aviso: Certas seções podem conter conteúdo potencialmente prejudicial que pode não ser apropriado para todos os leitores.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Rubricas como Superfície de Ataque: Desvio de Preferência Dissimulado em Juízes de LLM

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Resumo

Support