ToolSafe : Amélioration de la sécurité des invocations d'outils pour les agents basés sur les LLM via une garde proactive au niveau des étapes et un système de rétroaction

papers.abstract

Si les agents basés sur LLM peuvent interagir avec des environnements en invoquant des outils externes, leurs capacités élargies amplifient également les risques de sécurité. Surveiller en temps réel les comportements d'invocation d'outils au niveau de l'étape et intervenir de manière proactive avant une exécution non sécurisée est crucial pour le déploiement des agents, mais reste peu exploré. Dans ce travail, nous construisons d'abord TS-Bench, un nouveau benchmark pour la détection de la sécurité des invocations d'outils au niveau de l'étape dans les agents LLM. Nous développons ensuite un modèle de garde-fou, TS-Guard, en utilisant l'apprentissage par renforcement multi-tâches. Le modèle détecte de manière proactive les actions d'invocation d'outils non sécurisées avant leur exécution en raisonnant sur l'historique des interactions. Il évalue la nocivité des requêtes et les corrélations action-attaque, produisant des jugements de sécurité et des retours interprétables et généralisables. De plus, nous présentons TS-Flow, un cadre de raisonnement piloté par les retours du garde-fou pour les agents LLM, qui réduit en moyenne de 65 % les invocations d'outils nuisibles des agents de type ReAct et améliore l'accomplissement des tâches bénignes d'environ 10 % sous des attaques par injection de prompt.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe : Amélioration de la sécurité des invocations d'outils pour les agents basés sur les LLM via une garde proactive au niveau des étapes et un système de rétroaction

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

papers.abstract

Support