ChatPaper.aiChatPaper

에이전트 시스템의 수호자: 에이전트 시스템을 이용한 많은 샷 탈옥 방지

Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

February 23, 2025
저자: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI

초록

대규모 언어 모델을 사용하는 자율 AI 에이전트들은 사회 전 영역에서 명백한 가치를 창출할 수 있지만, 신뢰와 안전 문제가 발생하여 즉각적인 보호 솔루션이 필요한 보안 위협에 직면하고 있습니다. 다수의 샷 탈옥과 속임수 정렬을 고급 공격의 주요 원인으로 고려할 때, 감독된 훈련 중 사용된 정적 가드레일로는 완화할 수 없는 이러한 공격은 실제 세계에서의 견고성에 대한 중요한 연구 우선 순위를 지적합니다. 정적 가드레일의 결합은 동적 다중 에이전트 시스템에서 이러한 공격에 대항할 수 없습니다. 우리는 LLM 기반 에이전트들의 보안을 강화하기 위해 새로운 평가 프레임워크를 개발하여 안전한 운영 배치를 위한 위협을 식별하고 대응하고자 합니다. 우리의 연구는 로그 에이전트를 탐지하기 위한 역 튜링 테스트를 통해 속임수 정렬을 분석하고, GEMINI 1.5 pro 및 llama-3.3-70B, deepseek r1 모델을 사용하여 도구 중재적 공격 시나리오로 시험하여 반 탈옥 시스템을 개발합니다. GEMINI 1.5 pro의 경우 94%의 정확도와 같이 감지 능력이 강하지만, 시스템은 공격 길이가 증가함에 따라 지속적인 취약점을 가지며 공격 성공률(ASR)이 증가하고 다양성 지표가 예측에서 효과가 없어지며 여러 복잡한 시스템 결함이 드러납니다. 이러한 결과는 에이전트 자체에 의한 적극적인 모니터링을 기반으로 하는 유연한 보안 시스템 채택의 필요성을 보여주며, 현재 모델은 신뢰할 수 없고 취약한 시스템으로 이어질 수 있는 취약점을 만들어냅니다. 따라서, 우리의 연구에서는 이러한 상황에 대처하고 보안 문제에 대항하기 위한 포괄적인 프레임워크를 제안하고자 합니다.
English
The autonomous AI agents using large language models can create undeniable values in all span of the society but they face security threats from adversaries that warrants immediate protective solutions because trust and safety issues arise. Considering the many-shot jailbreaking and deceptive alignment as some of the main advanced attacks, that cannot be mitigated by the static guardrails used during the supervised training, points out a crucial research priority for real world robustness. The combination of static guardrails in dynamic multi-agent system fails to defend against those attacks. We intend to enhance security for LLM-based agents through the development of new evaluation frameworks which identify and counter threats for safe operational deployment. Our work uses three examination methods to detect rogue agents through a Reverse Turing Test and analyze deceptive alignment through multi-agent simulations and develops an anti-jailbreaking system by testing it with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated adversarial scenarios. The detection capabilities are strong such as 94\% accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities when under long attacks as prompt length increases attack success rates (ASR) and diversity metrics become ineffective in prediction while revealing multiple complex system faults. The findings demonstrate the necessity of adopting flexible security systems based on active monitoring that can be performed by the agents themselves together with adaptable interventions by system admin as the current models can create vulnerabilities that can lead to the unreliable and vulnerable system. So, in our work, we try to address such situations and propose a comprehensive framework to counteract the security issues.

Summary

AI-Generated Summary

PDF102February 28, 2025