ToolSafe: Mejora de la Seguridad en la Invocación de Herramientas para Agentes Basados en LLM mediante Barrera Proactiva a Nivel de Paso y Retroalimentación

Resumen

Si bien los agentes basados en LLM pueden interactuar con entornos mediante la invocación de herramientas externas, sus capacidades expandidas también amplifican los riesgos de seguridad. Monitorear los comportamientos de invocación de herramientas a nivel de paso en tiempo real e intervenir proactivamente antes de una ejecución insegura es crucial para el despliegue de agentes, pero sigue siendo un área poco explorada. En este trabajo, primero construimos TS-Bench, un nuevo benchmark para la detección de seguridad en la invocación de herramientas a nivel de paso en agentes LLM. Luego desarrollamos un modelo de salvaguarda, TS-Guard, utilizando aprendizaje por refuerzo multitarea. El modelo detecta proactivamente acciones de invocación de herramientas inseguras antes de su ejecución razonando sobre el historial de interacciones. Evalúa la nocividad de las solicitudes y las correlaciones acción-ataque, produciendo juicios de seguridad y retroalimentación interpretables y generalizables. Además, presentamos TS-Flow, un marco de razonamiento impulsado por retroalimentación de salvaguarda para agentes LLM, que reduce las invocaciones de herramientas dañinas en agentes de estilo ReAct en un 65% en promedio y mejora la finalización de tareas benignas en aproximadamente un 10% bajo ataques de inyección de prompts.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe: Mejora de la Seguridad en la Invocación de Herramientas para Agentes Basados en LLM mediante Barrera Proactiva a Nivel de Paso y Retroalimentación

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Resumen

Support