Rubrics als Aanvalsoppervlak: Onopvallende Voorkeursverschuiving bij LLM-beoordelaars

Samenvatting

Evaluatie- en afstemmingstrajecten voor grote taalmodellen maken in toenemende mate gebruik van op LLM's gebaseerde beoordelaars, waarvan het gedrag wordt gestuurd door natuurlijketaalrubriceringen en gevalideerd met behulp van benchmarks. Wij identificeren een kwetsbaarheid in deze workflow die tot nu toe onderkend is geweest, en die wij Rubric-Geïnduceerde Preferentiedrift (RIPD) noemen. Zelfs wanneer aanpassingen aan rubriceringen de benchmarkvalidatie doorstaan, kunnen ze toch systematische en directionele verschuivingen veroorzaken in de voorkeuren van een beoordelaar op doeldomeinen. Omdat rubriceringen fungeren als een hoogwaardige beslissingsinterface, kan dergelijke drift ontstaan door ogenschijnlijk natuurlijke, criterium-behoudende aanpassingen en moeilijk detecteerbaar blijven via geaggregeerde benchmarkmetingen of beperkte steekproeven. Wij tonen verder aan dat deze kwetsbaarheid kan worden uitgebuit via rubric-gebaseerde preferentieaanvallen, waarbij benchmark-conforme rubriceringaanpassingen de beoordelingen wegsturen van een vaste menselijke of vertrouwde referentie op doeldomeinen, waardoor systematisch RIPD wordt geïnduceerd en de nauwkeurigheid op het doeldomein met tot wel 9,5% (behulpzaamheid) en 27,9% (onschadelijkheid) afneemt. Wanneer deze beoordelingen worden gebruikt om preferentielabels te genereren voor downstream na-training, plant de geïnduceerde bias zich voort door afstemmingstrajecten en wordt deze geïnternaliseerd in getrainde beleidsregels. Dit leidt tot persistente en systematische drift in het modelgedrag. Over het geheel genomen belichten onze bevindingen evaluatierubriceringen als een gevoelige en manipuleerbare controle-interface, wat een systeemniveau afstemmingsrisico onthult dat verder reikt dan alleen de betrouwbaarheid van de beoordelaar. De code is beschikbaar op: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Waarschuwing: Bepaalde secties kunnen mogelijk schadelijk materiaal bevatten dat mogelijk niet geschikt is voor alle lezers.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Rubrics als Aanvalsoppervlak: Onopvallende Voorkeursverschuiving bij LLM-beoordelaars

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Samenvatting

Support