Beschermers van het Agentic Systeem: Het voorkomen van de Many Shots Jailbreak met het Agentic Systeem
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
Auteurs: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
Samenvatting
De autonome AI-agenten die gebruikmaken van grote taalmodellen kunnen onbetwistbare waarden creëren in alle lagen van de samenleving, maar ze worden geconfronteerd met beveiligingsbedreigingen van tegenstanders die onmiddellijke beschermende oplossingen rechtvaardigen, omdat er vertrouwens- en veiligheidskwesties ontstaan. Gezien de vele pogingen tot jailbreak en misleidende afstemming als enkele van de belangrijkste geavanceerde aanvallen, die niet kunnen worden verminderd door de statische veiligheidsmaatregelen die worden gebruikt tijdens de begeleide training, wijst op een cruciale onderzoeksprioriteit voor robuustheid in de echte wereld. De combinatie van statische veiligheidsmaatregelen in een dynamisch multi-agentensysteem faalt om zich te verdedigen tegen die aanvallen. We zijn van plan de beveiliging voor op LLM gebaseerde agenten te verbeteren door de ontwikkeling van nieuwe evaluatiekaders die bedreigingen identificeren en tegengaan voor veilige operationele implementatie. Ons werk maakt gebruik van drie onderzoeksmethoden om rogue agenten te detecteren via een Omgekeerde Turingtest en om misleidende afstemming te analyseren via multi-agentensimulaties en ontwikkelt een anti-jailbreaksysteem door het te testen met GEMINI 1.5 pro en llama-3.3-70B, deepseek r1-modellen met behulp van door tools gemedieerde vijandige scenario's. De detectiemogelijkheden zijn sterk, zoals 94% nauwkeurigheid voor GEMINI 1.5 pro, maar het systeem vertoont aanhoudende kwetsbaarheden bij langdurige aanvallen, aangezien de lengte van de prompt de succespercentages van aanvallen verhoogt en diversiteitsmetingen ineffectief worden in voorspelling terwijl ze meerdere complexe systeemfouten onthullen. De bevindingen tonen de noodzaak aan van het aannemen van flexibele beveiligingssystemen op basis van actieve monitoring die kan worden uitgevoerd door de agenten zelf, samen met aanpasbare interventies door systeembeheerders, aangezien de huidige modellen kwetsbaarheden kunnen creëren die kunnen leiden tot een onbetrouwbaar en kwetsbaar systeem. Daarom proberen we in ons werk dergelijke situaties aan te pakken en stellen we een allesomvattend kader voor om de beveiligingsproblemen tegen te gaan.
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary