ChatPaper.aiChatPaper

NESSiE : Le Référentiel de Sécurité Nécessaire — Identifier les Erreurs qui ne Devraient pas Exister

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

February 18, 2026
papers.authors: Johannes Bertram, Jonas Geiping
cs.AI

papers.abstract

Nous présentons NESSiE, le benchmark de sécurité NÉceSsairE pour les grands modèles de langage (LLM). Avec un nombre minimal de cas de test portant sur la sécurité de l'information et des accès, NESSiE révèle des défaillances liées à la sécurité qui ne devraient pas exister, compte tenu de la faible complexité des tâches. NESSiE est conçu comme un contrôle de cohérence, léger et facile à utiliser, pour la sécurité des modèles de langage et, à ce titre, n'est pas suffisant pour garantir la sécurité en général – mais nous soutenons que réussir ce test est une condition nécessaire pour tout déploiement. Cependant, même les LLM les plus avancés n'atteignent pas 100 % sur NESSiE et échouent donc à notre condition nécessaire de sécurité des modèles de langage, même en l'absence d'attaques adverses. Notre métrique Sûr & Utile (SH) permet une comparaison directe des deux exigences, montrant que les modèles sont biaisés en faveur de l'utilité plutôt que de la sécurité. Nous constatons en outre que la désactivation du raisonnement pour certains modèles, et surtout un contexte de distraction bénin, dégradent les performances du modèle. Dans l'ensemble, nos résultats soulignent les risques critiques liés au déploiement de tels modèles en tant qu'agents autonomes dans des environnements non contrôlés. Nous mettons l'ensemble de données, le package et le code de visualisation à disposition du public.
English
We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.
PDF11February 21, 2026