ToolSafe: Verbetering van Tool-aanroepveiligheid van LLM-gebaseerde agents via Proactieve Stapsgewijze Beveiliging en Feedback

Samenvatting

Hoewel op LLM gebaseerde agenten kunnen interageren met omgevingen via het aanroepen van externe tools, vergroten hun uitgebreide capaciteiten ook de beveiligingsrisico's. Het realtime monitoren van toolaanroepgedrag op stapniveau en het proactief ingrijpen vóór onveilige uitvoering is cruciaal voor de inzet van agenten, maar blijft onderbelicht. In dit werk construeren we eerst TS-Bench, een nieuwe benchmark voor de detectie van toolaanroepveiligheid op stapniveau in LLM-agenten. Vervolgens ontwikkelen we een guardrail-model, TS-Guard, met behulp van multi-task reinforcement learning. Het model detecteert proactief onveilige toolaanroepacties vóór uitvoering door te redeneren over de interactiegeschiedenis. Het beoordeelt de schadelijkheid van verzoeken en actie-aanval-correlaties, en produceert interpreteerbare en generaliseerbare veiligheidsoordelen en feedback. Verder introduceren we TS-Flow, een guardrail-feedback-gestuurd redeneerkader voor LLM-agenten, dat schadelijke toolaanroepen van ReAct-stijl agenten met gemiddeld 65 procent vermindert en de voltooiing van goedaardige taken met ongeveer 10 procent verbetert onder prompt injection-aanvallen.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe: Verbetering van Tool-aanroepveiligheid van LLM-gebaseerde agents via Proactieve Stapsgewijze Beveiliging en Feedback

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Samenvatting

Support