ToolSafe: Verbesserung der Werkzeugaufrufsicherheit von KI-Agenten durch proaktive Schritt-für-Schritt-Sicherheitsbarrieren und Feedback

papers.abstract

Während LLM-basierte Agenten über den Aufruf externer Tools mit Umgebungen interagieren können, vergrößern ihre erweiterten Fähigkeiten auch die Sicherheitsrisiken. Die Echtzeitüberwachung von Tool-Aufrufverhalten auf Schrittebene und das proaktive Eingreifen vor unsicherer Ausführung sind entscheidend für den Agenteneinsatz, wurden jedoch bisher kaum erforscht. In dieser Arbeit entwickeln wir zunächst TS-Bench, einen neuartigen Benchmark für die Erkennung von Sicherheitsrisiken bei Tool-Aufrufen auf Schrittebene in LLM-Agenten. Anschließend entwickeln wir mit Multi-Task-Verstärkungslernen ein Sicherheitsmodell namens TS-Guard. Dieses Modell erkennt proaktiv unsichere Tool-Aufrufaktionen vor deren Ausführung, indem es die Interaktionshistorie analysiert. Es bewertet die Schädlichkeit von Anfragen sowie Aktions-Angriff-Korrelationen und erzeugt interpretierbare und generalisierbare Sicherheitsbewertungen und Rückmeldungen. Darüber hinaus führen wir TS-Flow ein, ein sicherheitsgesteuertes Reasoning-Framework für LLM-Agenten, das schädliche Tool-Aufrufe von ReAct-style-Agenten im Durchschnitt um 65 Prozent reduziert und die erfolgreiche Bearbeitung legitimer Aufgaben unter Prompt-Injection-Angriffen um etwa 10 Prozent verbessert.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe: Verbesserung der Werkzeugaufrufsicherheit von KI-Agenten durch proaktive Schritt-für-Schritt-Sicherheitsbarrieren und Feedback

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

papers.abstract

Support