Blanchiment d'intention : les ensembles de données en sécurité de l'IA ne sont pas ce qu'ils paraissent

Résumé

Nous évaluons systématiquement la qualité des ensembles de données de sécurité IA largement utilisés sous deux angles : de manière isolée et en pratique. De manière isolée, nous examinons dans quelle mesure ces ensembles de données reflètent les attaques adverses réelles en nous basant sur trois propriétés clés : être motivées par une intention cachée, être bien conçues et être hors distribution. Nous constatons que ces ensembles de données s'appuient excessivement sur des « indices déclencheurs » : des mots ou expressions à connotation négative/sensible explicite destinés à activer explicitement les mécanismes de sécurité, ce qui est irréaliste par rapport aux attaques du monde réel. En pratique, nous évaluons si ces ensembles de données mesurent véritablement les risques de sécurité ou provoquent simplement des refus via ces indices déclencheurs. Pour explorer cela, nous introduisons le « blanchiment d'intention » : une procédure qui abstrait les indices déclencheurs des attaques adverses (points de données) tout en préservant strictement leur intention malveillante et tous les détails pertinents. Nos résultats indiquent que les ensembles de données actuels de sécurité IA ne représentent pas fidèlement le comportement adverse réel en raison de leur dépendance excessive aux indices déclencheurs. Une fois ces indices supprimés, tous les modèles précédemment évalués comme « raisonnablement sûrs » deviennent non sûrs, y compris Gemini 3 Pro et Claude Sonnet 3.7. De plus, lorsque le blanchiment d'intention est adapté comme technique de contournement, il obtient systématiquement des taux de réussite d'attaque élevés, allant de 90 % à plus de 98 %, dans un contexte d'accès totalement boîte noire. Globalement, nos résultats révèlent un décalage important entre la manière dont la sécurité des modèles est évaluée par les ensembles de données existants et le comportement des adversaires réels.

English

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

Blanchiment d'intention : les ensembles de données en sécurité de l'IA ne sont pas ce qu'ils paraissent

Intent Laundering: AI Safety Datasets Are Not What They Seem

Résumé

Support