ToolSafe: Miglioramento della Sicurezza nell'Invoco di Strumenti per Agenti Basati su LLM tramite Barriera Protettiva Proattiva a Livello di Step e Feedback

Abstract

Sebbene gli agenti basati su LLM possano interagire con gli ambienti tramite l'invocazione di strumenti esterni, le loro capacità amplificate aumentano anche i rischi per la sicurezza. Monitorare i comportamenti di invocazione degli strumenti a livello di step in tempo reale e intervenire proattivamente prima di un'esecuzione non sicura è fondamentale per il deployment degli agenti, ma rimane un ambito poco esplorato. In questo lavoro, costruiamo innanzitutto TS-Bench, un nuovo benchmark per il rilevamento della sicurezza delle invocazioni di strumenti a livello di step negli agenti LLM. Successivamente, sviluppiamo un modello di guardrail, TS-Guard, utilizzando l'apprendimento per rinforzo multi-task. Il modello rileva proattivamente le azioni di invocazione non sicure prima dell'esecuzione ragionando sulla cronologia delle interazioni. Esso valuta la dannosità della richiesta e le correlazioni azione-attacco, producendo giudizi di sicurezza e feedback interpretabili e generalizzabili. Inoltre, introduciamo TS-Flow, un framework di ragionamento guidato dal feedback del guardrail per agenti LLM, che riduce in media del 65% le invocazioni dannose di strumenti negli agenti di tipo ReAct e migliora il completamento dei task benigni di circa il 10% sotto attacchi di prompt injection.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe: Miglioramento della Sicurezza nell'Invoco di Strumenti per Agenti Basati su LLM tramite Barriera Protettiva Proattiva a Livello di Step e Feedback

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Abstract

Support