ChatPaper.aiChatPaper

NESSiE: Der Notwendige Sicherheits-Benchmark – Identifikation von Fehlern, die nicht existieren sollten

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

February 18, 2026
papers.authors: Johannes Bertram, Jonas Geiping
cs.AI

papers.abstract

Wir stellen NESSiE vor, den NEceSsary SafEty-Benchmark für große Sprachmodelle (LLMs). Mit minimalen Testfällen aus den Bereichen Informations- und Zugriffssicherheit deckt NESSiE sicherheitsrelevante Fehler auf, die bei der geringen Komplexität der Aufgaben nicht existieren sollten. NESSiE ist als leichtgewichtiger, einfach anzuwendender Sanity-Check für die Sicherheit von Sprachmodellen konzipiert und daher nicht ausreichend, um allgemeine Sicherheit zu gewährleisten – doch wir argumentieren, dass das Bestehen dieses Tests eine notwendige Voraussetzung für jeden Einsatz ist. Allerdings erreichen selbst state-of-the-art LLMs nicht 100 % auf NESSiE und scheitern somit an unserer notwendigen Bedingung für Sprachmodellsicherheit, selbst ohne adversariale Angriffe. Unsere Safe & Helpful (SH)-Metrik ermöglicht einen direkten Vergleich der beiden Anforderungen und zeigt, dass Modelle eher darauf ausgelegt sind, hilfreich statt sicher zu sein. Weiterhin stellen wir fest, dass deaktiviertes Reasoning bei einigen Modellen, aber insbesondere ein harmloser Ablenkungskontext die Modellleistung verschlechtern. Insgesamt unterstreichen unsere Ergebnisse die kritischen Risiken, die mit dem Einsatz solcher Modelle als autonome Agenten in der Praxis verbunden sind. Wir stellen den Datensatz, das Paket und den Plotting-Code öffentlich zur Verfügung.
English
We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.
PDF11February 21, 2026