ToolSafe: Повышение безопасности вызова инструментов агентов на основе больших языковых моделей с помощью проактивного поэтапного ограничителя и обратной связи

Аннотация

Хотя агенты на основе языковых моделей могут взаимодействовать со средой через вызов внешних инструментов, их расширенные возможности также усиливают риски безопасности. Мониторинг поведений вызова инструментов на уровне шагов в реальном времени и проактивное вмешательство до небезопасного выполнения критически важны для развертывания агентов, однако эта проблема остается малоизученной. В данной работе мы сначала создаем TS-Bench — новый эталонный набор для обнаружения безопасности вызова инструментов на уровне шагов у агентов на основе языковых моделей. Затем мы разрабатываем защитную модель TS-Guard с использованием многозадательного обучения с подкреплением. Модель проактивно обнаруживает небезопасные действия вызова инструментов до их выполнения, анализируя историю взаимодействий. Она оценивает вредоносность запросов и корреляции между действиями и атаками, формируя интерпретируемые и обобщаемые оценки безопасности и обратную связь. Кроме того, мы представляем TS-Flow — framework логического вывода, управляемый защитной обратной связью для агентов на основе языковых моделей, который сокращает вредоносные вызовы инструментов у агентов в стиле ReAct в среднем на 65% и повышает успешность выполнения доброкачественных задач примерно на 10% при атаках инъекцией в промпты.

English

While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.

ToolSafe: Повышение безопасности вызова инструментов агентов на основе больших языковых моделей с помощью проактивного поэтапного ограничителя и обратной связи

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Аннотация

Support