Auditoría de Seguridad del Arnés de Agente

Resumen

Los agentes de modelos de lenguaje a gran escala (LLM) se ejecutan cada vez más dentro de marcos de ejecución que gestionan herramientas, asignan recursos y enrutan mensajes entre componentes especializados. Sin embargo, un marco de ejecución puede devolver una respuesta correcta e inofensiva a lo largo de una trayectoria que accede a recursos no autorizados o filtra contexto al agente equivocado. La evaluación a nivel de salida no puede detectar estos fallos, y sin embargo la mayoría de los puntos de referencia de seguridad solo evalúan los resultados finales o estados terminales, aunque muchas violaciones ocurren a mitad de la trayectoria y no en su terminación. La cuestión central es si el marco de ejecución respeta la intención del usuario, los límites de permisos y las restricciones de flujo de información durante toda la ejecución. Para abordar esta brecha, proponemos HarnessAudit, un marco que audita trayectorias completas de ejecución en cuanto al cumplimiento de límites, fidelidad de ejecución y estabilidad del sistema, con un enfoque en marcos multiagente donde estos riesgos son más pronunciados. Además, introducimos HarnessAudit-Bench, un punto de referencia de 210 tareas en ocho dominios del mundo real, implementado tanto en configuraciones de un solo agente como multiagente con restricciones de seguridad integradas. Evaluando diez configuraciones de marcos de ejecución en modelos de frontera y tres marcos multiagente, encontramos que: (i) la finalización de tareas no está alineada con una ejecución segura, y las violaciones se acumulan con la longitud de la trayectoria; (ii) los riesgos de seguridad varían según los dominios, tipos de tarea y roles de los agentes; (iii) la mayoría de las violaciones se concentran en el acceso a recursos y la transferencia de información entre agentes; y (iv) la colaboración multiagente expande la superficie de riesgo de seguridad, mientras que el diseño del marco de ejecución establece el límite superior para un despliegue seguro.

English

LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.