Agent-SafetyBench : Évaluation de la sécurité des agents LLM
Agent-SafetyBench: Evaluating the Safety of LLM Agents
December 19, 2024
Auteurs: Zhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang
cs.AI
Résumé
À mesure que les grands modèles de langage (GML) sont de plus en plus déployés en tant qu'agents, leur intégration dans des environnements interactifs et leur utilisation d'outils introduisent de nouveaux défis en matière de sécurité au-delà de ceux associés aux modèles eux-mêmes. Cependant, l'absence de référentiels complets pour évaluer la sécurité des agents constitue un obstacle majeur à une évaluation efficace et à une amélioration ultérieure. Dans cet article, nous présentons Agent-SafetyBench, un référentiel complet conçu pour évaluer la sécurité des agents GML. Agent-SafetyBench englobe 349 environnements d'interaction et 2 000 cas de test, évaluant 8 catégories de risques de sécurité et couvrant 10 modes de défaillance courants fréquemment rencontrés dans des interactions non sécurisées. Notre évaluation de 16 agents GML populaires révèle un résultat préoccupant : aucun des agents n'obtient un score de sécurité supérieur à 60%. Cela met en lumière d'importants défis en matière de sécurité des agents GML et souligne le besoin considérable d'amélioration. À travers une analyse quantitative, nous identifions des modes de défaillance critiques et résumons deux détections de sécurité fondamentales dans les agents GML actuels : le manque de robustesse et le manque de conscience du risque. De plus, nos résultats suggèrent que le recours uniquement à des invites de défense est insuffisant pour traiter ces problèmes de sécurité, soulignant le besoin de stratégies plus avancées et robustes. Nous mettons à disposition Agent-SafetyBench sur https://github.com/thu-coai/Agent-SafetyBench pour faciliter la recherche et l'innovation ultérieures dans l'évaluation et l'amélioration de la sécurité des agents.
English
As large language models (LLMs) are increasingly deployed as agents, their
integration into interactive environments and tool use introduce new safety
challenges beyond those associated with the models themselves. However, the
absence of comprehensive benchmarks for evaluating agent safety presents a
significant barrier to effective assessment and further improvement. In this
paper, we introduce Agent-SafetyBench, a comprehensive benchmark designed to
evaluate the safety of LLM agents. Agent-SafetyBench encompasses 349
interaction environments and 2,000 test cases, evaluating 8 categories of
safety risks and covering 10 common failure modes frequently encountered in
unsafe interactions. Our evaluation of 16 popular LLM agents reveals a
concerning result: none of the agents achieves a safety score above 60%. This
highlights significant safety challenges in LLM agents and underscores the
considerable need for improvement. Through quantitative analysis, we identify
critical failure modes and summarize two fundamental safety detects in current
LLM agents: lack of robustness and lack of risk awareness. Furthermore, our
findings suggest that reliance on defense prompts alone is insufficient to
address these safety issues, emphasizing the need for more advanced and robust
strategies. We release Agent-SafetyBench at
https://github.com/thu-coai/Agent-SafetyBench to facilitate further
research and innovation in agent safety evaluation and improvement.Summary
AI-Generated Summary