Intent Laundering: AI-veiligheidsdatasets zijn niet wat ze lijken

Samenvatting

Wij evalueren systematisch de kwaliteit van veelgebruikte AI-veiligheidsdatasets vanuit twee perspectieven: in isolatie en in de praktijk. In isolatie onderzoeken we in hoeverre deze datasets real-world adversarial attacks weerspiegelen op basis van drie kerneigenschappen: gedreven door een verborgen agenda, zorgvuldig geconstrueerd, en out-of-distribution. Wij constateren dat deze datasets te veel vertrouwen op "triggermechanismen": woorden of zinsdelen met overduidelijke negatieve/gevoelige connotaties die bedoeld zijn om veiligheidsmechanismen expliciet te activeren, wat onrealistisch is in vergelijking met echte aanvallen. In de praktijk evalueren we of deze datasets daadwerkelijk veiligheidsrisico's meten of slechts weigeringen uitlokken via triggermechanismen. Om dit te onderzoeken, introduceren we "intent laundering": een procedure die triggermechanismen abstraheert van adversarial attacks (datapunten) terwijl de kwaadwillende intentie en alle relevante details strikt behouden blijven. Onze resultaten tonen aan dat huidige AI-veiligheidsdatasets geen getrouwe weergave bieden van real-world adversarial gedrag vanwege hun overmatige afhankelijkheid van triggermechanismen. Zodra deze mechanismen worden verwijderd, worden alle eerder geëvalueerde "redelijk veilige" modellen onveilig, inclusief Gemini 3 Pro en Claude Sonnet 3.7. Bovendien, wanneer intent laundering wordt aangepast als jailbreaking-techniek, behaalt het consistent hoge aanvalssuccesspercentages, variërend van 90% tot meer dan 98%, onder volledig black-box toegang. Over het geheel genomen leggen onze bevindingen een significante kloof bloot tussen hoe modelsafety wordt geëvalueerd door bestaande datasets en hoe echte tegenstanders zich gedragen.

English

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

Intent Laundering: AI-veiligheidsdatasets zijn niet wat ze lijken

Intent Laundering: AI Safety Datasets Are Not What They Seem

Samenvatting

Support