Segurança do Arnês de Agente de Auditoria

Resumo

Agentes de LLM operam cada vez mais dentro de mecanismos de execução que despacham ferramentas, alocam recursos e roteiam mensagens entre componentes especializados. No entanto, um mecanismo pode retornar uma resposta correta e benigna ao longo de uma trajetória que acessa recursos não autorizados ou vaza contexto para o agente errado. A avaliação no nível de saída não consegue detectar essas falhas, embora a maioria dos benchmarks de segurança avalie apenas resultados finais ou estados terminais, mesmo que muitas violações ocorram no meio da trajetória, e não no término. A questão central é se o mecanismo respeita a intenção do usuário, os limites de permissão e as restrições de fluxo de informação durante toda a execução. Para preencher essa lacuna, propomos o HarnessAudit, uma estrutura que audita trajetórias completas de execução quanto à conformidade de limites, fidelidade de execução e estabilidade do sistema, com foco em mecanismos multiagente, onde esses riscos são mais pronunciados. Apresentamos também o HarnessAudit-Bench, um benchmark de 210 tarefas em oito domínios do mundo real, instanciado em configurações de agente único e multiagente com restrições de segurança embutidas. Avaliando dez configurações de mecanismos em modelos de fronteira e três estruturas multiagente, constatamos que: (i) a conclusão de tarefas está desalinhada com a execução segura, e as violações se acumulam com o comprimento da trajetória; (ii) os riscos de segurança variam entre domínios, tipos de tarefa e papéis dos agentes; (iii) a maioria das violações se concentra no acesso a recursos e na transferência de informações entre agentes; e (iv) a colaboração multiagente expande a superfície de risco de segurança, enquanto o design do mecanismo estabelece o limite superior da implantação segura.

English

LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.