ChatPaper.aiChatPaper

NESSiE: Необходимый эталон безопасности — выявление ошибок, которых не должно существовать

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

February 18, 2026
Авторы: Johannes Bertram, Jonas Geiping
cs.AI

Аннотация

Мы представляем NESSiE — минимальный тестовый набор для оценки необходимого уровня безопасности больших языковых моделей (LLM). Используя минимальное количество тестовых случаев для проверки информационной безопасности и безопасности доступа, NESSiE выявляет связанные с безопасностью сбои, которых не должно возникать, учитывая низкую сложность задач. NESSiE задуман как легковесный и простой в использовании инструмент для базовой проверки безопасности языковых моделей и, как таковой, недостаточен для гарантии общей безопасности — однако мы утверждаем, что прохождение этого теста является необходимым условием для любого развертывания. Тем не менее, даже современные LLM не достигают 100% результата на NESSiE и, следовательно, не удовлетворяют нашему необходимому условию безопасности языковых моделей, даже при отсутствии атак. Наша метрика Safe & Helpful (SH) позволяет напрямую сравнивать два требования, демонстрируя, что модели склонны скорее к полезности, чем к безопасности. Мы также обнаружили, что отключение механизмов рассуждений у некоторых моделей, и особенно наличие безобидного отвлекающего контекста, ухудшают их производительность. В целом наши результаты подчеркивают критические риски развертывания таких моделей в качестве автономных агентов в реальных условиях. Мы публикуем датасет, пакет и код для визуализации в открытом доступе.
English
We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.
PDF11February 21, 2026