Rubriche come Superficie di Attacco: Deriva Inosservata delle Preferenze nei Giudici LLM

Abstract

Le pipeline di valutazione e allineamento per i grandi modelli linguistici si affidano sempre più a giudici basati su LLM, il cui comportamento è guidato da rubriche in linguaggio naturale e convalidato su benchmark. Identifichiamo una vulnerabilità precedentemente sottovalutata in questo flusso di lavoro, che denominiamo Deriva delle Preferenze Indotta dalla Rubrica (RIPD). Anche quando le modifiche alle rubriche superano la convalida del benchmark, possono comunque produrre cambiamenti sistematici e direzionali nelle preferenze di un giudice sui domini target. Poiché le rubriche fungono da interfaccia decisionale di alto livello, tale deriva può emergere da modifiche apparentemente naturali e conservative dei criteri, rimanendo difficile da rilevare tramite metriche aggregate di benchmark o controlli spot limitati. Dimostriamo inoltre che questa vulnerabilità può essere sfruttata attraverso attacchi alle preferenze basati su rubriche, in cui modifiche conformi al benchmark orientano i giudizi lontano da un riferimento umano fisso o attendibile sui domini target, inducendo sistematicamente la RIPD e riducendo l'accuratezza sul dominio target fino al 9,5% (utilità) e al 27,9% (innocuità). Quando questi giudizi vengono utilizzati per generare etichette di preferenza per l'addestramento a valle, il bias indotto si propaga attraverso le pipeline di allineamento e viene internalizzato nelle politiche addestrate. Ciò porta a una deriva persistente e sistematica nel comportamento del modello. In sintesi, i nostri risultati evidenziano le rubriche di valutazione come un'interfaccia di controllo sensibile e manipolabile, rivelando un rischio di allineamento a livello sistemico che va oltre l'affidabilità del singolo valutatore. Il codice è disponibile all'indirizzo: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Avvertenza: alcune sezioni potrebbero contenere contenuti potenzialmente dannosi che potrebbero non essere adatti a tutti i lettori.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Rubriche come Superficie di Attacco: Deriva Inosservata delle Preferenze nei Giudici LLM

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Abstract

Support