ChatPaper.aiChatPaper

ShieldAgent: Protección de Agentes mediante Razonamiento Verificable de Políticas de Seguridad

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

March 26, 2025
Autores: Zhaorun Chen, Mintong Kang, Bo Li
cs.AI

Resumen

Los agentes autónomos impulsados por modelos fundacionales han experimentado una adopción generalizada en diversas aplicaciones del mundo real. Sin embargo, siguen siendo altamente vulnerables a instrucciones maliciosas y ataques, lo que puede resultar en consecuencias graves como violaciones de privacidad y pérdidas financieras. Más críticamente, las salvaguardas existentes para los LLM no son aplicables debido a la naturaleza compleja y dinámica de los agentes. Para abordar estos desafíos, proponemos ShieldAgent, el primer agente de salvaguarda diseñado para hacer cumplir explícitamente las políticas de seguridad en la trayectoria de acciones de otros agentes protegidos mediante razonamiento lógico. Específicamente, ShieldAgent primero construye un modelo de política de seguridad extrayendo reglas verificables de documentos de políticas y estructurándolas en un conjunto de circuitos de reglas probabilísticas basadas en acciones. Dada la trayectoria de acciones del agente protegido, ShieldAgent recupera los circuitos de reglas relevantes y genera un plan de protección, aprovechando su biblioteca integral de herramientas y código ejecutable para verificación formal. Además, dada la falta de puntos de referencia para salvaguardas en agentes, presentamos ShieldAgent-Bench, un conjunto de datos con 3K pares de instrucciones de agentes y trayectorias de acciones relacionadas con la seguridad, recopilados mediante ataques de última generación en 6 entornos web y 7 categorías de riesgo. Los experimentos muestran que ShieldAgent alcanza el estado del arte en ShieldAgent-Bench y en tres puntos de referencia existentes, superando a los métodos anteriores en un 11.3% en promedio con una alta recuperación del 90.1%. Además, ShieldAgent reduce las consultas API en un 64.7% y el tiempo de inferencia en un 58.2%, demostrando su alta precisión y eficiencia en la protección de agentes.
English
Autonomous agents powered by foundation models have seen widespread adoption across various real-world applications. However, they remain highly vulnerable to malicious instructions and attacks, which can result in severe consequences such as privacy breaches and financial losses. More critically, existing guardrails for LLMs are not applicable due to the complex and dynamic nature of agents. To tackle these challenges, we propose ShieldAgent, the first guardrail agent designed to enforce explicit safety policy compliance for the action trajectory of other protected agents through logical reasoning. Specifically, ShieldAgent first constructs a safety policy model by extracting verifiable rules from policy documents and structuring them into a set of action-based probabilistic rule circuits. Given the action trajectory of the protected agent, ShieldAgent retrieves relevant rule circuits and generates a shielding plan, leveraging its comprehensive tool library and executable code for formal verification. In addition, given the lack of guardrail benchmarks for agents, we introduce ShieldAgent-Bench, a dataset with 3K safety-related pairs of agent instructions and action trajectories, collected via SOTA attacks across 6 web environments and 7 risk categories. Experiments show that ShieldAgent achieves SOTA on ShieldAgent-Bench and three existing benchmarks, outperforming prior methods by 11.3% on average with a high recall of 90.1%. Additionally, ShieldAgent reduces API queries by 64.7% and inference time by 58.2%, demonstrating its high precision and efficiency in safeguarding agents.

Summary

AI-Generated Summary

PDF162April 7, 2025