ChatPaper.aiChatPaper

Segurança do Arnês de Agente de Auditoria

Auditing Agent Harness Safety

May 14, 2026
Autores: Chengzhi Liu, Yichen Guo, Yepeng Liu, Yuzhe Yang, Qianqi Yan, Xuandong Zhao, Wenyue Hua, Sheng Liu, Sharon Li, Yuheng Bu, Xin Eric Wang
cs.AI

Resumo

Agentes de LLM operam cada vez mais dentro de mecanismos de execução que despacham ferramentas, alocam recursos e roteiam mensagens entre componentes especializados. No entanto, um mecanismo pode retornar uma resposta correta e benigna ao longo de uma trajetória que acessa recursos não autorizados ou vaza contexto para o agente errado. A avaliação no nível de saída não consegue detectar essas falhas, embora a maioria dos benchmarks de segurança avalie apenas resultados finais ou estados terminais, mesmo que muitas violações ocorram no meio da trajetória, e não no término. A questão central é se o mecanismo respeita a intenção do usuário, os limites de permissão e as restrições de fluxo de informação durante toda a execução. Para preencher essa lacuna, propomos o HarnessAudit, uma estrutura que audita trajetórias completas de execução quanto à conformidade de limites, fidelidade de execução e estabilidade do sistema, com foco em mecanismos multiagente, onde esses riscos são mais pronunciados. Apresentamos também o HarnessAudit-Bench, um benchmark de 210 tarefas em oito domínios do mundo real, instanciado em configurações de agente único e multiagente com restrições de segurança embutidas. Avaliando dez configurações de mecanismos em modelos de fronteira e três estruturas multiagente, constatamos que: (i) a conclusão de tarefas está desalinhada com a execução segura, e as violações se acumulam com o comprimento da trajetória; (ii) os riscos de segurança variam entre domínios, tipos de tarefa e papéis dos agentes; (iii) a maioria das violações se concentra no acesso a recursos e na transferência de informações entre agentes; e (iv) a colaboração multiagente expande a superfície de risco de segurança, enquanto o design do mecanismo estabelece o limite superior da implantação segura.
English
LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.