Lavagem de Intenções: Os Conjuntos de Dados para Segurança em IA Não São o que Parecem
Intent Laundering: AI Safety Datasets Are Not What They Seem
February 17, 2026
Autores: Shahriar Golchin, Marc Wetter
cs.AI
Resumo
Avaliamos sistematicamente a qualidade dos conjuntos de dados de segurança de IA amplamente utilizados sob duas perspectivas: isoladamente e na prática. Isoladamente, examinamos o quanto esses conjuntos de dados refletem ataques adversariais do mundo real com base em três propriedades-chave: serem impulsionados por intenção oculta, bem elaborados e fora da distribuição. Constatamos que esses conjuntos de dados dependem excessivamente de "gatilhos contextuais": palavras ou frases com conotações negativas/sensíveis explícitas, destinadas a acionar os mecanismos de segurança de forma direta, o que é irrealista em comparação com ataques do mundo real. Na prática, avaliamos se esses conjuntos de dados medem genuinamente os riscos de segurança ou apenas provocam recusas por meio desses gatilhos contextuais. Para explorar isso, introduzimos a "lavagem de intenção": um procedimento que abstrai os gatilhos contextuais dos ataques adversariais (pontos de dados), preservando estritamente sua intenção maliciosa e todos os detalhes relevantes. Nossos resultados indicam que os conjuntos de dados atuais de segurança de IA falham em representar fielmente o comportamento adversarial do mundo real devido à sua excessiva dependência de gatilhos contextuais. Uma vez removidos esses gatilhos, todos os modelos previamente avaliados como "razoavelmente seguros" tornam-se inseguros, incluindo o Gemini 3 Pro e o Claude Sonnet 3.7. Além disso, quando a lavagem de intenção é adaptada como técnica de jailbreaking, ela atinge consistentemente altas taxas de sucesso de ataque, variando de 90% a mais de 98%, sob acesso totalmente black-box. No geral, nossas descobertas expõem uma lacuna significativa entre a forma como a segurança dos modelos é avaliada pelos conjuntos de dados existentes e como os adversários do mundo real se comportam.
English
We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.