ChatPaper.aiChatPaper

거미 감각: 계층적 적응형 스크리닝을 통한 효율적인 에이전트 방어를 위한 본질적 위험 감지

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

February 5, 2026
저자: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI

초록

대규모 언어 모델(LLM)이 자율 에이전트로 진화함에 따라 실제 적용 가능성은 크게 확장되었으며, 새로운 보안 과제도 함께 대두되고 있다. 기존 대부분의 에이전트 방어 메커니즘은 사전 정의된 에이전트 생명주기 단계에서 강제적으로 보안 검증을 실행하는 강제 검증 패러다임을 채택하고 있다. 본 연구에서는 효과적인 에이전트 보안은 구조적으로 분리되고 강제적인 방식이 아니라, 본질적이고 선택적이어야 한다고 주장한다. 우리는 에이전트가 잠재적 경계 상태를 유지하며 위험을 인지했을 때만 방어 체계를 작동하도록 하는 내재적 위험 감지(IRS) 기반의 이벤트 구동형 방어 프레임워크인 Spider-Sense를 제안한다. Spider-Sense는 작동 시 효율성과 정밀도를 절충하는 계층적 방어 메커니즘을 구동한다. 즉, 알려진 패턴은 경량 유사성 매칭으로 해결하는 한편, 모호한 사례는 심층 내부 추론으로 확대 처리하여 외부 모델에 대한 의존성을 제거한다. 엄격한 평가를 위해 우리는 현실적인 도구 실행과 다단계 공격을 특징으로 하는 생명주기 인식 벤치마크 S^2Bench를 도입했다. 광범위한 실험을 통해 Spider-Sense가 경쟁력 있거나 우수한 방어 성능을 달성하며, 최저의 공격 성공률(ASR)과 오탐률(FPR)을 기록하면서도 약 8.3%의 미미한 지연 오버헤드만 발생함을 입증했다.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.
PDF584February 7, 2026