ChatPaper.aiChatPaper

ToolSafe: 사전적 단계별 가드레일 및 피드백을 통한 LLM 기반 에이전트의 도구 호출 안전성 강화

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

January 15, 2026
저자: Yutao Mou, Zhangchi Xue, Lijun Li, Peiyang Liu, Shikun Zhang, Wei Ye, Jing Shao
cs.AI

초록

LLM 기반 에이전트가 외부 도구 호출을 통해 환경과 상호작용할 수 있지만, 이러한 확장된 능력은 보안 위험도 함께 증폭시킵니다. 에이전트 배포 시 단계별 도구 호출 행위를 실시간으로 모니터링하고 안전하지 않은 실행을 사전에 차단하는 것은 중요하지만, 아직까지 충분히 연구되지 않았습니다. 본 연구에서는 먼저 LLM 에이전트의 단계별 도구 호출 안전성 감지를 위한 새로운 벤치마크인 TS-Bench를 구축합니다. 이후 다중 작업 강화 학습을 활용하여 가드레일 모델 TS-Guard를 개발합니다. 이 모델은 상호작용 이력을 추론하여 실행 전 안전하지 않은 도구 호출 행위를 사전에 탐지합니다. 이를 위해 요청의 유해성과 행위-공격 간 상관관계를 평가하여 해석 가능하고 일반화된 안전성 판단 및 피드백을 생성합니다. 나아가 가드레일-피드백 주도 추론 프레임워크인 TS-Flow를 도입하여, 프롬프트 주입 공격 하에서 ReAct 스타일 에이전트의 유해한 도구 호출을 평균 65% 감소시키고 정상 작업 완료율을 약 10% 개선함을 보였습니다.
English
While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.
PDF181January 17, 2026