Gardiens du Système Agentique : Prévenir le Jailbreak de Many Shots avec le Système Agentique
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
Auteurs: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
Résumé
Les agents autonomes d'IA utilisant de grands modèles de langage peuvent créer des valeurs indéniables dans tous les domaines de la société, mais ils font face à des menaces de sécurité de la part d'adversaires qui nécessitent des solutions protectrices immédiates car des problèmes de confiance et de sécurité se posent. En considérant le jailbreaking à nombreux coups et l'alignement trompeur comme certaines des principales attaques avancées, qui ne peuvent pas être atténuées par les garde-fous statiques utilisés lors de l'entraînement supervisé, souligne une priorité de recherche cruciale pour la robustesse en conditions réelles. La combinaison de garde-fous statiques dans un système multi-agent dynamique échoue à se défendre contre ces attaques. Nous avons l'intention d'améliorer la sécurité des agents basés sur les LLM grâce au développement de nouveaux cadres d'évaluation qui identifient et contrent les menaces pour un déploiement opérationnel sûr. Notre travail utilise trois méthodes d'examen pour détecter les agents malveillants à travers un Test de Turing inversé, analyser l'alignement trompeur à travers des simulations multi-agents et développer un système anti-jailbreaking en le testant avec les modèles GEMINI 1.5 pro et llama-3.3-70B, deepseek r1 en utilisant des scénarios adverses médiatisés par des outils. Les capacités de détection sont solides, comme une précision de 94\% pour GEMINI 1.5 pro, cependant le système présente des vulnérabilités persistantes lors d'attaques prolongées, car l'augmentation de la longueur de l'instruction augmente les taux de réussite des attaques (ASR) et les mesures de diversité deviennent inefficaces dans la prédiction tout en révélant de multiples défauts complexes du système. Les résultats démontrent la nécessité d'adopter des systèmes de sécurité flexibles basés sur une surveillance active pouvant être effectuée par les agents eux-mêmes, conjointement avec des interventions adaptables par l'administrateur du système, car les modèles actuels peuvent créer des vulnérabilités pouvant conduire à un système peu fiable et vulnérable. Ainsi, dans notre travail, nous essayons de traiter de telles situations et proposons un cadre complet pour contrer les problèmes de sécurité.
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary