ChatPaper.aiChatPaper

ToolSafe: プロアクティブなステップ単位ガードレールとフィードバックによるLLMベースエージェントのツール呼び出し安全性向上

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

January 15, 2026
著者: Yutao Mou, Zhangchi Xue, Lijun Li, Peiyang Liu, Shikun Zhang, Wei Ye, Jing Shao
cs.AI

要旨

LLMベースのエージェントは外部ツールを呼び出すことで環境と相互作用可能ですが、その拡張された能力は同時にセキュリティリスクも増幅させます。エージェントの実運用において、ステップ単位のツール呼び出し挙動をリアルタイムで監視し、安全でない実行前に能動的に介入することは極めて重要であるものの、この分野は未だ十分に研究されていません。本研究ではまず、LLMエージェントにおけるステップ単位のツール呼び出し安全性検出のための新しいベンチマーク「TS-Bench」を構築します。次に、マルチタスク強化学習を用いたガードレイルモデル「TS-Guard」を開発します。このモデルは、相互作用の履歴を推論することで、実行前に安全でないツール呼び出し行動を能動的に検出します。要求の有害性と行動-攻撃の相関関係を評価し、解釈可能で一般化可能な安全性判断とフィードバックを生成します。さらに、ガードレイルのフィードバック駆動型推論フレームワーク「TS-Flow」を提案します。これは、プロンプトインジェクション攻撃下において、ReActスタイルのエージェントの有害なツール呼び出しを平均65%削減し、良性タスクの完了率を約10%向上させます。
English
While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.
PDF181January 17, 2026