Rubriken als Angriffsfläche: Verdeckte Präferenzverschiebung bei LLM-Beurteilern

Zusammenfassung

Bewertungs- und Alignment-Pipelines für große Sprachmodelle setzen zunehmend auf LLM-basierte Bewerter, deren Verhalten durch natürlichsprachliche Bewertungsraster gesteuert und an Benchmarks validiert wird. Wir identifizieren eine bisher wenig beachtete Schwachstelle in diesem Workflow, die wir als Bewertungsraster-induzierte Präferenzverschiebung (RIPD) bezeichnen. Selbst wenn Änderungen am Bewertungsraster die Benchmark-Validierung bestehen, können sie dennoch systematische und gerichtete Verschiebungen in den Präferenzen eines Bewerters in den Zielbereichen verursachen. Da Bewertungsraster als hochrangige Entscheidungsschnittstelle dienen, kann eine solche Verschiebung durch scheinbar natürliche, kriterienerhaltende Änderungen entstehen und mittels aggregierter Benchmark-Metriken oder begrenzter Stichproben schwer zu erkennen bleiben. Wir zeigen weiterhin, dass diese Schwachstelle durch Bewertungsraster-basierte Präferenzangriffe ausgenutzt werden kann, bei denen benchmark-konforme Änderungen am Raster die Urteile auf den Zielbereichen von einem festen menschlichen oder vertrauenswürdigen Referenzpunkt weglenken, systematisch RIPD induzieren und die Genauigkeit auf der Zielbereich um bis zu 9,5 % (Hilfreichkeitsbewertung) bzw. 27,9 % (Unbedenklichkeitsbewertung) reduzieren. Wenn diese Urteile zur Generierung von Präferenzlabels für nachgelagertes Post-Training verwendet werden, pflanzt sich die induzierte Verzerrung durch die Alignment-Pipelines fort und wird in den trainierten Policies verinnerlicht. Dies führt zu einer persistente und systematische Verschiebung im Modellverhalten. Insgesamt unterstreichen unsere Ergebnisse Bewertungsraster als eine sensible und manipulierbare Steuerungsschnittstelle und decken ein systemisches Alignment-Risiko auf, das über die reine Bewerterzuverlässigkeit hinausgeht. Der Code ist verfügbar unter: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warnung: Bestimmte Abschnitte können potenziell schädliche Inhalte enthalten, die für manche Leser möglicherweise nicht geeignet sind.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Rubriken als Angriffsfläche: Verdeckte Präferenzverschiebung bei LLM-Beurteilern

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Zusammenfassung

Support