Скрытые намерения: наборы данных для безопасности ИИ не так просты, как кажутся

Аннотация

Мы системно оцениваем качество широко используемых наборов данных по безопасности ИИ с двух точек зрения: изолированно и на практике. При изолированном рассмотрении мы анализируем, насколько точно эти наборы данных отражают реальные адверсарные атаки, основываясь на трех ключевых свойствах: обусловленность скрытыми мотивами, тщательная проработка и отличие от распределения обучающих данных. Мы обнаруживаем, что эти наборы данных чрезмерно полагаются на «триггерные сигналы» — слова или фразы с явными негативными/чувствительными коннотациями, предназначенные для явного срабатывания механизмов безопасности, что нереалистично по сравнению с реальными атаками. На практике мы оцениваем, действительно ли эти наборы данных измеряют риски безопасности или merely провоцируют отказы через триггерные сигналы. Для исследования этого мы вводим концепцию «отмывания намерения»: процедуру абстрагирования от триггерных сигналов в адверсарных атаках (точках данных) при строгом сохранении их вредоносного намерения и всех релевантных деталей. Наши результаты показывают, что текущие наборы данных по безопасности ИИ неадекватно отражают поведение реальных злоумышленников из-за чрезмерной зависимости от триггерных сигналов. После удаления этих сигналов все ранее оцененные как «достаточно безопасные» модели становятся небезопасными, включая Gemini 3 Pro и Claude Sonnet 3.7. Более того, когда отмывание намерения адаптируется как техника взлома, оно стабильно демонстрирует высокий процент успешных атак — от 90% до свыше 98% — в условиях полностью черного ящика. В целом, наши выводы выявляют значительный разрыв между тем, как безопасность моделей оценивается существующими наборами данных, и тем, как ведут себя реальные злоумышленники.

English

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

Скрытые намерения: наборы данных для безопасности ИИ не так просты, как кажутся

Intent Laundering: AI Safety Datasets Are Not What They Seem

Аннотация

Support