NESSiE: De Noodzakelijke Veiligheidsbenchmark -- Het Identificeren van Fouten die niet zouden mogen Bestaan

Samenvatting

Wij introduceren NESSiE, de NEceSsary SafEty-benchmark voor grote taalmodel(len). Met minimale testgevallen voor informatie- en toegangsbeveiliging onthult NESSiE veiligheidsgerelateerde fouten die niet zouden mogen bestaan, gezien de lage complexiteit van de taken. NESSiE is bedoeld als een lichtgewicht, gebruiksvriendelijke sanity check voor de veiligheid van taalmodel(len) en is als zodanig niet toereikend om veiligheid in het algemeen te garanderen – maar wij beargumenteren dat het doorstaan van deze test noodzakelijk is voor elke implementatie. Desalniettemin halen zelfs state-of-the-art LLM's geen 100% score op NESSiE en voldoen ze dus niet aan onze noodzakelijke voorwaarde voor taalmodelveiligheid, zelfs zonder tegenaanvallen. Onze Safe & Helpful (SH)-metriek maakt een directe vergelijking van de twee vereisten mogelijk, waaruit blijkt dat modellen eerder geneigd zijn behulpzaam dan veilig te zijn. Verder stellen we vast dat uitgeschakelde redeneervaardigheden voor sommige modellen, maar vooral een goedaardige afleidende context, de modelprestaties verslechteren. Over het geheel genomen onderstrepen onze resultaten de kritieke risico's van het inzetten van dergelijke modellen als autonome agents in de praktijk. Wij stellen de dataset, het package en de plotcode openbaar beschikbaar.

English

We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.

NESSiE: De Noodzakelijke Veiligheidsbenchmark -- Het Identificeren van Fouten die niet zouden mogen Bestaan

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

Samenvatting

Support