Custodi del Sistema Agente: Prevenire il Jailbreak di Molte Applicazioni con il Sistema Agente
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
Autori: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
Abstract
Gli agenti autonomi di intelligenza artificiale che utilizzano ampi modelli linguistici possono creare valori innegabili in tutti gli ambiti della società, ma affrontano minacce alla sicurezza da parte di avversari che richiedono soluzioni protettive immediate poiché sorgono problemi di fiducia e sicurezza. Considerando il jailbreaking many-shot e l'allineamento ingannevole come alcuni dei principali attacchi avanzati, che non possono essere mitigati dalle barriere statiche utilizzate durante l'addestramento supervisionato, si evidenzia una prioritaria ricerca per la robustezza nel mondo reale. La combinazione di barriere statiche in un sistema dinamico multi-agente non riesce a difendersi da tali attacchi. Intendiamo potenziare la sicurezza per gli agenti basati su LLM attraverso lo sviluppo di nuovi quadri di valutazione che identificano e contrastano le minacce per un deployment operativo sicuro. Il nostro lavoro utilizza tre metodi di esame per individuare agenti fraudolenti attraverso un Test di Turing Inverso, analizzare l'allineamento ingannevole attraverso simulazioni multi-agente e sviluppare un sistema anti-jailbreaking testandolo con i modelli GEMINI 1.5 pro e llama-3.3-70B, deepseek r1 utilizzando scenari avversari mediati da strumenti. Le capacità di rilevamento sono forti, come ad esempio il 94\% di accuratezza per GEMINI 1.5 pro, tuttavia il sistema soffre di vulnerabilità persistenti durante attacchi prolungati poiché l'aumento della lunghezza del prompt aumenta i tassi di successo degli attacchi (ASR) e le metriche di diversità diventano inefficaci nella previsione, rivelando al contempo molteplici difetti complessi del sistema. I risultati dimostrano la necessità di adottare sistemi di sicurezza flessibili basati su monitoraggio attivo che possono essere eseguiti dagli agenti stessi insieme a interventi adattabili da parte dell'amministratore di sistema poiché i modelli attuali possono creare vulnerabilità che possono portare a un sistema non affidabile e vulnerabile. Pertanto, nel nostro lavoro, cerchiamo di affrontare tali situazioni e proponiamo un quadro completo per contrastare i problemi di sicurezza.
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary