ChatPaper.aiChatPaper

ShieldAgent: 검증 가능한 안전 정책 추론을 통한 에이전트 보호

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

March 26, 2025
저자: Zhaorun Chen, Mintong Kang, Bo Li
cs.AI

초록

파운데이션 모델로 구동되는 자율 에이전트는 다양한 실제 애플리케이션에서 널리 채택되고 있습니다. 그러나 이러한 에이전트들은 악의적인 지시와 공격에 매우 취약하며, 이는 개인정보 유출 및 금전적 손실과 같은 심각한 결과를 초래할 수 있습니다. 더욱 중요한 점은, 기존의 대형 언어 모델(LLM)을 위한 안전 장치들이 에이전트의 복잡하고 동적인 특성으로 인해 적용되지 않는다는 것입니다. 이러한 문제를 해결하기 위해, 우리는 논리적 추론을 통해 보호 대상 에이전트의 행동 궤적에 대한 명시적 안전 정책 준수를 강제하는 최초의 가드레일 에이전트인 ShieldAgent를 제안합니다. 구체적으로, ShieldAgent는 먼저 정책 문서에서 검증 가능한 규칙을 추출하여 이를 행동 기반의 확률적 규칙 회로로 구조화함으로써 안전 정책 모델을 구축합니다. 보호 대상 에이전트의 행동 궤적이 주어지면, ShieldAgent는 관련 규칙 회로를 검색하고, 포괄적인 도구 라이브러리와 실행 가능한 코드를 활용하여 형식 검증을 위한 차단 계획을 생성합니다. 또한, 에이전트를 위한 가드레일 벤치마크가 부족한 점을 고려하여, 우리는 6개의 웹 환경과 7개의 위험 범주에서 최신 공격 기법을 통해 수집된 3,000개의 안전 관련 에이전트 지시 및 행동 궤적 쌍으로 구성된 ShieldAgent-Bench 데이터셋을 소개합니다. 실험 결과, ShieldAgent는 ShieldAgent-Bench와 기존의 세 가지 벤치마크에서 최신 기술을 능가하며, 평균 11.3%의 성능 향상과 90.1%의 높은 재현율을 보여줍니다. 또한, ShieldAgent는 API 쿼리를 64.7% 줄이고 추론 시간을 58.2% 단축하여, 에이전트 보호에 있어 높은 정밀도와 효율성을 입증했습니다.
English
Autonomous agents powered by foundation models have seen widespread adoption across various real-world applications. However, they remain highly vulnerable to malicious instructions and attacks, which can result in severe consequences such as privacy breaches and financial losses. More critically, existing guardrails for LLMs are not applicable due to the complex and dynamic nature of agents. To tackle these challenges, we propose ShieldAgent, the first guardrail agent designed to enforce explicit safety policy compliance for the action trajectory of other protected agents through logical reasoning. Specifically, ShieldAgent first constructs a safety policy model by extracting verifiable rules from policy documents and structuring them into a set of action-based probabilistic rule circuits. Given the action trajectory of the protected agent, ShieldAgent retrieves relevant rule circuits and generates a shielding plan, leveraging its comprehensive tool library and executable code for formal verification. In addition, given the lack of guardrail benchmarks for agents, we introduce ShieldAgent-Bench, a dataset with 3K safety-related pairs of agent instructions and action trajectories, collected via SOTA attacks across 6 web environments and 7 risk categories. Experiments show that ShieldAgent achieves SOTA on ShieldAgent-Bench and three existing benchmarks, outperforming prior methods by 11.3% on average with a high recall of 90.1%. Additionally, ShieldAgent reduces API queries by 64.7% and inference time by 58.2%, demonstrating its high precision and efficiency in safeguarding agents.

Summary

AI-Generated Summary

PDF162April 7, 2025