Rubriques comme surface d'attaque : Dérive insidieuse des préférences chez les juges LLM

Résumé

Les pipelines d'évaluation et d'alignement des grands modèles de langage reposent de plus en plus sur des évaluateurs basés sur LLM, dont le comportement est guidé par des grilles d'évaluation en langage naturel et validé sur des benchmarks. Nous identifions une vulnérabilité précédemment sous-estimée dans ce flux de travail, que nous nommons la Dérive des Préférences Induite par les Grilles (RIPD). Même lorsque des modifications de grille passent la validation sur benchmark, elles peuvent néanmoins produire des décalages systématiques et directionnels dans les préférences d'un évaluateur sur les domaines cibles. Parce que les grilles servent d'interface décisionnelle de haut niveau, une telle dérive peut émerger de modifications apparemment naturelles et préservant les critères, et rester difficile à détecter via des métriques agrégées de benchmark ou une vérification ponctuelle limitée. Nous montrons en outre que cette vulnérabilité peut être exploitée via des attaques de préférence basées sur les grilles, où des modifications de grille conformes au benchmark détournent les jugements d'une référence humaine fixe ou de confiance sur les domaines cibles, induisant systématiquement la RIPD et réduisant la précision sur le domaine cible jusqu'à 9,5 % (utilité) et 27,9 % (innocuité). Lorsque ces jugements sont utilisés pour générer des étiquettes de préférence pour un post-entraînement en aval, le biais induit se propage à travers les pipelines d'alignement et est internalisé dans les politiques entraînées. Cela conduit à une dérive persistante et systématique du comportement du modèle. Globalement, nos résultats soulignent les grilles d'évaluation comme une interface de contrôle sensible et manipulable, révélant un risque d'alignement au niveau du système qui va au-delà de la seule fiabilité de l'évaluateur. Le code est disponible à l'adresse : https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Avertissement : Certaines sections peuvent contenir un contenu potentiellement préjudiciable qui pourrait ne pas convenir à tous les lecteurs.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Rubriques comme surface d'attaque : Dérive insidieuse des préférences chez les juges LLM

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Résumé

Support