ChatPaper.aiChatPaper

NESSiE: El Punto de Referencia Necesario en Seguridad -- Identificación de Errores que No Deberían Existir

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

February 18, 2026
Autores: Johannes Bertram, Jonas Geiping
cs.AI

Resumen

Presentamos NESSiE, el benchmark de Seguridad NEcesaria para modelos de lenguaje grandes (LLM). Con casos de prueba mínimos de seguridad de la información y del acceso, NESSiE revela fallos relevantes para la seguridad que no deberían existir, dada la baja complejidad de las tareas. NESSiE está concebido como una verificación de cordura ligera y fácil de usar para la seguridad de los modelos de lenguaje y, como tal, no es suficiente para garantizar la seguridad en general, pero sostenemos que superar esta prueba es necesario para cualquier despliegue. Sin embargo, incluso los LLM más avanzados no alcanzan el 100% en NESSiE y, por lo tanto, no cumplen nuestra condición necesaria de seguridad para modelos de lenguaje, incluso en ausencia de ataques adversarios. Nuestra métrica Seguro y Útil (SH, por Safe & Helpful) permite una comparación directa de los dos requisitos, mostrando que los modelos están sesgados hacia ser útiles en lugar de seguros. Además, encontramos que la desactivación del razonamiento en algunos modelos, y especialmente un contexto de distracción benigno, degrada el rendimiento del modelo. En general, nuestros resultados subrayan los riesgos críticos de desplegar dichos modelos como agentes autónomos en entornos reales. Ponemos a disposición del público el conjunto de datos, el paquete y el código de visualización.
English
We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.
PDF11February 21, 2026