Agent-SafetyBench : Évaluation de la sécurité des agents LLM

papers.abstract

À mesure que les grands modèles de langage (GML) sont de plus en plus déployés en tant qu'agents, leur intégration dans des environnements interactifs et leur utilisation d'outils introduisent de nouveaux défis en matière de sécurité au-delà de ceux associés aux modèles eux-mêmes. Cependant, l'absence de référentiels complets pour évaluer la sécurité des agents constitue un obstacle majeur à une évaluation efficace et à une amélioration ultérieure. Dans cet article, nous présentons Agent-SafetyBench, un référentiel complet conçu pour évaluer la sécurité des agents GML. Agent-SafetyBench englobe 349 environnements d'interaction et 2 000 cas de test, évaluant 8 catégories de risques de sécurité et couvrant 10 modes de défaillance courants fréquemment rencontrés dans des interactions non sécurisées. Notre évaluation de 16 agents GML populaires révèle un résultat préoccupant : aucun des agents n'obtient un score de sécurité supérieur à 60%. Cela met en lumière d'importants défis en matière de sécurité des agents GML et souligne le besoin considérable d'amélioration. À travers une analyse quantitative, nous identifions des modes de défaillance critiques et résumons deux détections de sécurité fondamentales dans les agents GML actuels : le manque de robustesse et le manque de conscience du risque. De plus, nos résultats suggèrent que le recours uniquement à des invites de défense est insuffisant pour traiter ces problèmes de sécurité, soulignant le besoin de stratégies plus avancées et robustes. Nous mettons à disposition Agent-SafetyBench sur https://github.com/thu-coai/Agent-SafetyBench pour faciliter la recherche et l'innovation ultérieures dans l'évaluation et l'amélioration de la sécurité des agents.

English

As large language models (LLMs) are increasingly deployed as agents, their integration into interactive environments and tool use introduce new safety challenges beyond those associated with the models themselves. However, the absence of comprehensive benchmarks for evaluating agent safety presents a significant barrier to effective assessment and further improvement. In this paper, we introduce Agent-SafetyBench, a comprehensive benchmark designed to evaluate the safety of LLM agents. Agent-SafetyBench encompasses 349 interaction environments and 2,000 test cases, evaluating 8 categories of safety risks and covering 10 common failure modes frequently encountered in unsafe interactions. Our evaluation of 16 popular LLM agents reveals a concerning result: none of the agents achieves a safety score above 60%. This highlights significant safety challenges in LLM agents and underscores the considerable need for improvement. Through quantitative analysis, we identify critical failure modes and summarize two fundamental safety detects in current LLM agents: lack of robustness and lack of risk awareness. Furthermore, our findings suggest that reliance on defense prompts alone is insufficient to address these safety issues, emphasizing the need for more advanced and robust strategies. We release Agent-SafetyBench at https://github.com/thu-coai/Agent-SafetyBench to facilitate further research and innovation in agent safety evaluation and improvement.

Agent-SafetyBench : Évaluation de la sécurité des agents LLM

Agent-SafetyBench: Evaluating the Safety of LLM Agents

papers.abstract

Support