Аудит безопасности страховочной привязи агента

Аннотация

Агенты на основе больших языковых моделей всё чаще выполняются внутри сред выполнения (harnesses), которые диспетчеризуют инструменты, распределяют ресурсы и маршрутизируют сообщения между специализированными компонентами. Однако такая среда может вернуть корректный, безобидный ответ по траектории, которая включает доступ к неавторизованным ресурсам или утечку контекста не тому агенту. Оценка на уровне выходных данных не видит этих сбоев, но большинство тестов безопасности оценивают только конечные выходы или терминальные состояния, хотя многие нарушения происходят в середине траектории, а не при завершении. Центральный вопрос заключается в том, соблюдает ли среда выполнения намерения пользователя, границы разрешений и ограничения на поток информации на протяжении всего выполнения. Для устранения этого пробела мы предлагаем HarnessAudit — фреймворк, который проверяет полные траектории выполнения на соответствие границам, точность выполнения и стабильность системы, с акцентом на многогентовые среды, где эти риски наиболее выражены. Мы также представляем HarnessAudit-Bench — эталонный набор из 210 задач в восьми реальных предметных областях, реализованных как в одногентовой, так и в многогентовой конфигурациях со встроенными ограничениями безопасности. Оценивая десять конфигураций сред выполнения на передовых моделях и трех фреймворках для многогентовых систем, мы обнаруживаем следующее: (i) выполнение задач не согласуется с безопасным исполнением, и нарушения накапливаются с увеличением длины траектории; (ii) риски безопасности различаются в зависимости от предметной области, типа задач и ролей агентов; (iii) большинство нарушений сосредоточено в доступе к ресурсам и передаче информации между агентами; (iv) многогентовое сотрудничество расширяет поверхность риска для безопасности, в то время как дизайн среды выполнения устанавливает верхнюю границу безопасного развертывания.

English

LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.