Intent Laundering: KI-Sicherheitsdatensätze sind nicht das, was sie zu sein scheinen

Zusammenfassung

Wir evaluieren systematisch die Qualität weit verbreititer KI-Sicherheitsdatensätze aus zwei Perspektiven: isoliert betrachtet und in der Praxis. In der Isolierung untersuchen wir, wie gut diese Datensätze reale adversarielle Angriffe anhand drei Schlüsseleigenschaften widerspiegeln: ob sie von verdeckter Absicht getrieben sind, sorgfältig konstruiert wurden und Out-of-Distribution-Verhalten aufweisen. Wir stellen fest, dass diese Datensätze übermäßig auf "Trigger-Cues" angewiesen sind: Wörter oder Phrasen mit offensichtlich negativen/sensitiven Konnotationen, die Sicherheitsmechanismen explizit auslösen sollen, was im Vergleich zu realen Angriffen unrealistisch ist. In der Praxis evaluieren wir, ob diese Datensätze tatsächlich Sicherheitsrisiken messen oder lediglich Verweigerungen durch Trigger-Cues provozieren. Um dies zu untersuchen, führen wir "Intent Laundering" ein: ein Verfahren, das Trigger-Cues von adversariellen Angriffen (Datenpunkten) abstrahiert, während ihre bösartige Absicht und alle relevanten Details strikt erhalten bleiben. Unsere Ergebnisse zeigen, dass aktuelle KI-Sicherheitsdatensätze adversarielles Verhalten aus der Realität aufgrund ihrer Überabhängigkeit von Trigger-Cues nicht treu abbilden. Sobald diese Cues entfernt werden, werden alle zuvor als "angemessen sicher" eingestuften Modelle unsicher, einschließlich Gemini 3 Pro und Claude Sonnet 3.7. Wenn Intent Laundering zudem als Jailbreaking-Technik adaptiert wird, erzielt es durchgängig hohe Angriffserfolgsraten von 90 % bis über 98 % unter vollständig Black-Box-Zugangsbedingungen. Insgesamt legen unsere Ergebnisse eine signifikante Diskrepanz zwischen der Modellsicherheitsbewertung durch bestehende Datensätze und dem Verhalten realer Angreifer offen.

English

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

Intent Laundering: KI-Sicherheitsdatensätze sind nicht das, was sie zu sein scheinen

Intent Laundering: AI Safety Datasets Are Not What They Seem

Zusammenfassung

Support