Audit de la sécurité des harnais d’agent

Résumé

Les agents LLM sont de plus en plus exécutés au sein d’infrastructures d’exécution qui distribuent des outils, allouent des ressources et acheminent des messages entre composants spécialisés. Cependant, une infrastructure peut renvoyer une réponse correcte et bénigne sur une trajectoire qui accède à des ressources non autorisées ou qui divulgue du contexte au mauvais agent. Une évaluation au niveau de la sortie ne peut pas détecter ces échecs, alors que la plupart des benchmarks de sécurité ne notent que les résultats finaux ou les états terminaux, même si de nombreuses violations surviennent en cours de trajectoire plutôt qu’à la terminaison. La question centrale est de savoir si l’infrastructure respecte l’intention de l’utilisateur, les limites d’autorisation et les contraintes de flux d’information tout au long de l’exécution. Pour combler cette lacune, nous proposons HarnessAudit, un cadre d’audit qui examine les trajectoires d’exécution complètes sous les angles de la conformité aux limites, de la fidélité d’exécution et de la stabilité du système, avec un accent sur les infrastructures multi-agents où ces risques sont les plus prononcés. Nous introduisons également HarnessAudit-Bench, un benchmark de 210 tâches couvrant huit domaines réels, instancié en configurations mono-agent et multi-agent avec des contraintes de sécurité intégrées. En évaluant dix configurations d’infrastructures à travers des modèles de pointe et trois frameworks multi-agents, nous constatons que : (i) l’achèvement des tâches est décalé par rapport à une exécution sûre, et les violations s’accumulent avec la longueur des trajectoires ; (ii) les risques de sécurité varient selon les domaines, les types de tâches et les rôles des agents ; (iii) la plupart des violations se concentrent sur l’accès aux ressources et le transfert d’informations entre agents ; (iv) la collaboration multi-agents élargit la surface de risque de sécurité, tandis que la conception de l’infrastructure fixe la borne supérieure d’un déploiement sûr.

English

LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.