Рубрики как поверхность атаки: склонность к скрытому смещению у языковых моделей-судей

Аннотация

Процедуры оценки и согласования больших языковых моделей все чаще полагаются на судей на основе ИИ, чье поведение направляется естественно-языковыми критериями и проверяется на бенчмарках. Мы выявляем ранее недостаточно признанную уязвимость в этом процессе, которую называем **дрейфом предпочтений, индуцированным критериями (Rubric-Induced Preference Drift, RIPD)**. Даже когда правки критериев успешно проходят валидацию на бенчмарках, они все равно могут вызывать систематические и направленные сдвиги в предпочтениях судьи на целевых доменах. Поскольку критерии служат интерфейсом высокоуровневого принятия решений, такой дрейф может возникать из-за, казалось бы, естественных правок, сохраняющих формулировки критериев, и оставаться трудно обнаруживаемым с помощью агрегированных метрик бенчмарков или ограниченной выборочной проверки. Мы также показываем, что этой уязвимостью можно злонамеренно воспользоваться с помощью **атак на предпочтения через критерии**, при которых соответствующие бенчмаркам правки направляют суждения в сторону от фиксированного человеческого или доверенного эталона на целевых доменах, систематически вызывая RIPD и снижая точность на целевом домене до 9,5% (полезность) и 27,9% (безвредность). Когда эти суждения используются для генерации меток предпочтений при последующем пост-тренинге, индуцированное смещение распространяется по конвейерам согласования и усваивается обученными политиками. Это приводит к устойчивому и систематическому дрейфу в поведении модели. В целом, наши результаты подчеркивают оценочные критерии как чувствительный и подверженный манипуляциям интерфейс управления, выявляя риск на уровне системы согласования, который выходит за рамки лишь надежности оценщика. Код доступен по адресу: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Внимание: некоторые разделы могут содержать потенциально вредоносный контент, который может быть не предназначен для всех читателей.

English

Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.

Рубрики как поверхность атаки: склонность к скрытому смещению у языковых моделей-судей

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Аннотация

Support