NESSiE: O Benchmark de Segurança Necessário -- Identificando Erros que Não Deveriam Existir

Resumo

Apresentamos o NESSiE, o benchmark de Segurança NEceSsária para modelos de linguagem de grande escala (LLMs). Com casos de teste mínimos de segurança da informação e de acesso, o NESSiE revela falhas relevantes para a segurança que não deveriam existir, dada a baixa complexidade das tarefas. O NESSiE é concebido como uma verificação de sanidade leve e de fácil utilização para a segurança dos modelos de linguagem e, como tal, não é suficiente para garantir a segurança em geral – mas argumentamos que passar neste teste é necessário para qualquer implantação. No entanto, mesmo os LLMs mais avançados não atingem 100% no NESSiE e, portanto, falham na nossa condição necessária de segurança de modelos de linguagem, mesmo na ausência de ataques adversariais. A nossa métrica Seguro e Prestativo (SH) permite uma comparação direta dos dois requisitos, mostrando que os modelos estão enviesados para serem prestativos em vez de seguros. Adicionalmente, verificamos que o raciocínio desativado em alguns modelos, mas especialmente um contexto de distração benigno, degrada o desempenho do modelo. No geral, os nossos resultados sublinham os riscos críticos de implantar tais modelos como agentes autónomos em ambiente real. Disponibilizamos publicamente o conjunto de dados, o pacote e o código de visualização.

English

We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.

NESSiE: O Benchmark de Segurança Necessário -- Identificando Erros que Não Deveriam Existir

NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

Resumo

Support