ChatPaper.aiChatPaper

ToolSafe: Miglioramento della Sicurezza nell'Invoco di Strumenti per Agenti Basati su LLM tramite Barriera Protettiva Proattiva a Livello di Step e Feedback

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

January 15, 2026
Autori: Yutao Mou, Zhangchi Xue, Lijun Li, Peiyang Liu, Shikun Zhang, Wei Ye, Jing Shao
cs.AI

Abstract

Sebbene gli agenti basati su LLM possano interagire con gli ambienti tramite l'invocazione di strumenti esterni, le loro capacità amplificate aumentano anche i rischi per la sicurezza. Monitorare i comportamenti di invocazione degli strumenti a livello di step in tempo reale e intervenire proattivamente prima di un'esecuzione non sicura è fondamentale per il deployment degli agenti, ma rimane un ambito poco esplorato. In questo lavoro, costruiamo innanzitutto TS-Bench, un nuovo benchmark per il rilevamento della sicurezza delle invocazioni di strumenti a livello di step negli agenti LLM. Successivamente, sviluppiamo un modello di guardrail, TS-Guard, utilizzando l'apprendimento per rinforzo multi-task. Il modello rileva proattivamente le azioni di invocazione non sicure prima dell'esecuzione ragionando sulla cronologia delle interazioni. Esso valuta la dannosità della richiesta e le correlazioni azione-attacco, producendo giudizi di sicurezza e feedback interpretabili e generalizzabili. Inoltre, introduciamo TS-Flow, un framework di ragionamento guidato dal feedback del guardrail per agenti LLM, che riduce in media del 65% le invocazioni dannose di strumenti negli agenti di tipo ReAct e migliora il completamento dei task benigni di circa il 10% sotto attacchi di prompt injection.
English
While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.
PDF262February 8, 2026