Lavaggio delle Intenzioni: I Dataset per la Sicurezza dell'IA Non Sono Ciò che Sembrano

Abstract

Valutiamo sistematicamente la qualità dei dataset sulla sicurezza dell'IA ampiamente utilizzati da due prospettive: in isolamento e nella pratica. In isolamento, esaminiamo quanto bene questi dataset riflettano gli attacchi adversarial del mondo reale basandoci su tre proprietà chiave: essere guidati da intenti nascosti, ben elaborati e fuori distribuzione. Rileviamo che questi dataset fanno un eccessivo affidamento su "indizi scatenanti": parole o frasi con connotazioni negative/sensibili esplicite intese ad attivare esplicitamente i meccanismi di sicurezza, il che è irrealistico rispetto agli attacchi reali. Nella pratica, valutiamo se questi dataset misurino genuinamente i rischi per la sicurezza o si limitino a provocare rifiuti attraverso indizi scatenanti. Per esplorare ciò, introduciamo il "riciclaggio dell'intento": una procedura che astrae gli indizi scatenanti dagli attacchi adversarial (punti dati) preservando rigorosamente il loro intento malevolo e tutti i dettagli rilevanti. I nostri risultati indicano che gli attuali dataset sulla sicurezza dell'IA non rappresentano fedelmente il comportamento adversarial del mondo reale a causa del loro eccessivo affidamento sugli indizi scatenanti. Una volta rimossi questi indizi, tutti i modelli precedentemente valutati come "ragionevolmente sicuri" diventano insicuri, inclusi Gemini 3 Pro e Claude Sonnet 3.7. Inoltre, quando il riciclaggio dell'intento viene adattato come tecnica di jailbreaking, raggiunge costantemente alti tassi di successo dell'attacco, dal 90% a oltre il 98%, in condizioni di accesso completamente black-box. Nel complesso, i nostri risultati rivelano un significativo divario tra come la sicurezza dei modelli viene valutata dai dataset esistenti e come si comportano gli avversari nel mondo reale.

English

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

Lavaggio delle Intenzioni: I Dataset per la Sicurezza dell'IA Non Sono Ciò che Sembrano

Intent Laundering: AI Safety Datasets Are Not What They Seem

Abstract

Support