Lavado de Intenciones: Los Conjuntos de Datos de Seguridad en IA No Son lo que Parecen

Resumen

Evaluamos sistemáticamente la calidad de los conjuntos de datos de seguridad de IA ampliamente utilizados desde dos perspectivas: de forma aislada y en la práctica. De forma aislada, examinamos hasta qué punto estos conjuntos de datos reflejan los ataques adversarios del mundo real basándonos en tres propiedades clave: estar impulsados por una intención oculta, estar bien elaborados y ser fuera de distribución. Encontramos que estos conjuntos de datos dependen en exceso de "indicadores desencadenantes": palabras o frases con connotaciones negativas/sensibles explícitas destinadas a activar los mecanismos de seguridad de manera explícita, lo cual no es realista en comparación con los ataques del mundo real. En la práctica, evaluamos si estos conjuntos de datos miden genuinamente los riesgos de seguridad o simplemente provocan rechazos mediante indicadores desencadenantes. Para explorar esto, introducimos el "lavado de intención": un procedimiento que abstrae los indicadores desencadenantes de los ataques adversarios (puntos de datos) preservando estrictamente su intención maliciosa y todos los detalles relevantes. Nuestros resultados indican que los conjuntos de datos actuales de seguridad de IA no representan fielmente el comportamiento adversario del mundo real debido a su excesiva dependencia de los indicadores desencadenantes. Una vez que se eliminan estos indicadores, todos los modelos previamente evaluados como "razonablemente seguros" se vuelven inseguros, incluidos Gemini 3 Pro y Claude Sonnet 3.7. Además, cuando el lavado de intención se adapta como técnica de *jailbreaking*, logra consistentemente altas tasas de éxito de ataque, que oscilan entre el 90% y más del 98%, bajo un acceso completamente de caja negra. En general, nuestros hallazgos exponen una desconexión significativa entre cómo se evalúa la seguridad de los modelos mediante los conjuntos de datos existentes y cómo se comportan los adversarios en el mundo real.

English

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

Lavado de Intenciones: Los Conjuntos de Datos de Seguridad en IA No Son lo que Parecen

Intent Laundering: AI Safety Datasets Are Not What They Seem

Resumen

Support