エージェントシステムの守護者:エージェントシステムによる多数のショットジェイルブレイクの防止
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
著者: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
要旨
大規模言語モデルを使用する自律型AIエージェントは、社会全体で否定できない価値を創造する可能性がありますが、信頼性と安全性の問題が発生するため、敵対者からのセキュリティ脅威に直面しています。監督されたトレーニング中に使用される静的なガードレールでは緩和できない、多数のショットのジェイルブレイキングや欺瞞的なアライメントをいくつかの主要な高度な攻撃として考慮すると、現実世界での堅牢性のための重要な研究優先度が示唆されます。静的なガードレールの組み合わせは、動的なマルチエージェントシステムにおいてこれらの攻撃に対して防御できません。私たちは、LLMベースのエージェントのセキュリティを向上させるため、新しい評価フレームワークの開発を通じて安全な運用展開のための脅威を特定し対抗することを意図しています。私たちの研究では、ローグエージェントを検出するためのリバースチューリングテスト、多エージェントシミュレーションを通じた欺瞞的なアライメントの分析、およびGEMINI 1.5 proおよびllama-3.3-70B、deepseek r1モデルを使用してツールを介した敵対的シナリオでテストすることにより、ジェイルブレイキングシステムを開発しています。検出能力は強力であり、GEMINI 1.5 proの場合、94%の精度がありますが、プロンプトの長さが増すと攻撃成功率(ASR)が上昇し、多様性メトリクスが予測において無効になり、複数の複雑なシステムの欠陥が明らかになると、システムは持続的な脆弱性に苦しむことがあります。調査結果は、エージェント自体によるアクティブな監視に基づく柔軟なセキュリティシステムの採用の必要性を示し、現行のモデルが信頼性のない脆弱なシステムにつながる可能性があるため、システム管理者による適応可能な介入と共に行うことができます。そのため、私たちの研究では、このような状況に対処し、セキュリティ問題に対抗する包括的なフレームワークを提案しようとしています。
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary