Auditierung der Sicherheit von Agenten-Harnesses

Zusammenfassung

LLM-Agenten werden zunehmend innerhalb von Ausführungs-Harnesses ausgeführt, die Werkzeuge verteilen, Ressourcen zuweisen und Nachrichten zwischen spezialisierten Komponenten leiten. Ein Harness kann jedoch eine korrekte, harmlose Antwort über eine Trajektorie zurückgeben, die auf nicht autorisierte Ressourcen zugreift oder Kontext an den falschen Agenten weitergibt. Die Bewertung auf Ausgabeebene kann diese Fehler nicht erkennen, doch die meisten Sicherheits-Benchmarks bewerten nur Endausgaben oder Endzustände, obwohl viele Verstöße mitten in der Trajektorie und nicht bei Beendigung auftreten. Die zentrale Frage ist, ob der Harness während der gesamten Ausführung die Benutzerabsicht, Berechtigungsgrenzen und Informationsflussbeschränkungen respektiert. Um diese Lücke zu schließen, schlagen wir HarnessAudit vor, ein Framework, das vollständige Ausführungstrajektorien hinsichtlich Grenzeinhaltung, Ausführungstreue und Systemstabilität prüft, mit Schwerpunkt auf Multiagenten-Harnesses, bei denen diese Risiken am stärksten ausgeprägt sind. Wir führen weiterhin HarnessAudit-Bench ein, einen Benchmark mit 210 Aufgaben aus acht realen Domänen, die sowohl in Einzelagenten- als auch in Multiagentenkonfigurationen mit eingebetteten Sicherheitseinschränkungen instanziiert werden. Bei der Bewertung von zehn Harness-Konfigurationen über Frontier-Modelle und drei Multiagenten-Frameworks hinweg stellen wir fest, dass: (i) Aufgabenabschluss und sichere Ausführung nicht ausgerichtet sind und Verstöße mit der Trajektorienlänge zunehmen; (ii) Sicherheitsrisiken je nach Domäne, Aufgabentyp und Agentenrolle variieren; (iii) die meisten Verstöße sich auf Ressourcenzugriff und agentenübergreifenden Informationsaustausch konzentrieren; und (iv) Multiagenten-Kollaboration die Sicherheitsrisikooberfläche erweitert, während das Harness-Design die Obergrenze für den sicheren Einsatz setzt.

English

LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.