ToolSafe: Aprimorando a Segurança na Invocação de Ferramentas de Agentes Baseados em LLM por meio de Guardrail e Feedback Proativos em Nível de Etapa

Resumo

Embora os agentes baseados em LLM possam interagir com ambientes por meio da invocação de ferramentas externas, suas capacidades expandidas também amplificam os riscos de segurança. Monitorar comportamentos de invocação de ferramentas em nível de etapa em tempo real e intervir proativamente antes da execução insegura é crucial para a implantação de agentes, mas permanece pouco explorado. Neste trabalho, primeiro construímos o TS-Bench, um novo benchmark para detecção de segurança na invocação de ferramentas em nível de etapa em agentes LLM. Em seguida, desenvolvemos um modelo de guardrail, o TS-Guard, usando aprendizado por reforço multitarefa. O modelo detecta proativamente ações de invocação de ferramentas inseguras antes da execução, raciocinando sobre o histórico de interação. Ele avalia a nocividade da solicitação e as correlações ação-ataque, produzindo julgamentos de segurança e feedback interpretáveis e generalizáveis. Além disso, introduzimos o TS-Flow, uma estrutura de raciocínio orientada por feedback de guardrail para agentes LLM, que reduz as invocações nocivas de ferramentas em agentes de estilo ReAct em média 65% e melhora a conclusão de tarefas benignas em aproximadamente 10% sob ataques de injeção de prompt.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe: Aprimorando a Segurança na Invocação de Ferramentas de Agentes Baseados em LLM por meio de Guardrail e Feedback Proativos em Nível de Etapa

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Resumo

Support