ChatPaper.aiChatPaper

NESSiE: 필수 안전성 벤치마크 -- 존재해서는 안 되는 오류 식별

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

February 18, 2026
저자: Johannes Bertram, Jonas Geiping
cs.AI

초록

대규모 언어 모델(LLM)을 위한 필수 안전성 벤치마크인 NESSiE를 소개합니다. NESSiE는 정보 보안 및 접근 보안과 관련된 최소한의 테스트 케이스만으로도, 작업의 낮은 복잡성을 고려했을 때 존재해서는 안 되는 안전성 관련 실패를 드러냅니다. NESSiE는 언어 모델 안전성을 위한 가벼우면서도 사용하기 쉬운 정성 검증(sanity check)을 목적으로 하므로, 일반적인 안전성을 보장하기에는 충분하지 않습니다. 그러나 본 논문에서는 이 테스트를 통과하는 것이 어떤 배포에도 필수적인 조건이라고 주장합니다. 그럼에도 불구하고, 최첨단 LLM 조차도 NESSiE에서 100% 성공률을 달성하지 못하여, 적대적 공격이 없는 상황에서도 언어 모델 안전성의 필수 조건을 충족하지 못하고 있습니다. 우리가 제안하는 Safe & Helpful(SH) 메트릭은 이 두 가지 요구 사항을 직접 비교할 수 있게 하여, 모델들이 안전함보다는 도움이 되는 쪽으로 편향되어 있음을 보여줍니다. 또한, 일부 모델에서 추론 기능을 비활성화하거나, 특히 무해한 주의 분산 컨텍스트가 모델 성능을 저하시킨다는 사실을 추가로 발견했습니다. 전반적으로, 우리의 결과는 이러한 모델들을 자율 에이전트로 실제 환경에 배포할 때 발생하는 중대한 위험을 강조합니다. 우리는 데이터셋, 패키지 및 플로팅 코드를 공개합니다.
English
We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.
PDF11February 21, 2026