Beschermers van het Agentic Systeem: Het voorkomen van de Many Shots Jailbreak met het Agentic Systeem

Samenvatting

De autonome AI-agenten die gebruikmaken van grote taalmodellen kunnen onbetwistbare waarden creëren in alle lagen van de samenleving, maar ze worden geconfronteerd met beveiligingsbedreigingen van tegenstanders die onmiddellijke beschermende oplossingen rechtvaardigen, omdat er vertrouwens- en veiligheidskwesties ontstaan. Gezien de vele pogingen tot jailbreak en misleidende afstemming als enkele van de belangrijkste geavanceerde aanvallen, die niet kunnen worden verminderd door de statische veiligheidsmaatregelen die worden gebruikt tijdens de begeleide training, wijst op een cruciale onderzoeksprioriteit voor robuustheid in de echte wereld. De combinatie van statische veiligheidsmaatregelen in een dynamisch multi-agentensysteem faalt om zich te verdedigen tegen die aanvallen. We zijn van plan de beveiliging voor op LLM gebaseerde agenten te verbeteren door de ontwikkeling van nieuwe evaluatiekaders die bedreigingen identificeren en tegengaan voor veilige operationele implementatie. Ons werk maakt gebruik van drie onderzoeksmethoden om rogue agenten te detecteren via een Omgekeerde Turingtest en om misleidende afstemming te analyseren via multi-agentensimulaties en ontwikkelt een anti-jailbreaksysteem door het te testen met GEMINI 1.5 pro en llama-3.3-70B, deepseek r1-modellen met behulp van door tools gemedieerde vijandige scenario's. De detectiemogelijkheden zijn sterk, zoals 94% nauwkeurigheid voor GEMINI 1.5 pro, maar het systeem vertoont aanhoudende kwetsbaarheden bij langdurige aanvallen, aangezien de lengte van de prompt de succespercentages van aanvallen verhoogt en diversiteitsmetingen ineffectief worden in voorspelling terwijl ze meerdere complexe systeemfouten onthullen. De bevindingen tonen de noodzaak aan van het aannemen van flexibele beveiligingssystemen op basis van actieve monitoring die kan worden uitgevoerd door de agenten zelf, samen met aanpasbare interventies door systeembeheerders, aangezien de huidige modellen kwetsbaarheden kunnen creëren die kunnen leiden tot een onbetrouwbaar en kwetsbaar systeem. Daarom proberen we in ons werk dergelijke situaties aan te pakken en stellen we een allesomvattend kader voor om de beveiligingsproblemen tegen te gaan.

English

The autonomous AI agents using large language models can create undeniable values in all span of the society but they face security threats from adversaries that warrants immediate protective solutions because trust and safety issues arise. Considering the many-shot jailbreaking and deceptive alignment as some of the main advanced attacks, that cannot be mitigated by the static guardrails used during the supervised training, points out a crucial research priority for real world robustness. The combination of static guardrails in dynamic multi-agent system fails to defend against those attacks. We intend to enhance security for LLM-based agents through the development of new evaluation frameworks which identify and counter threats for safe operational deployment. Our work uses three examination methods to detect rogue agents through a Reverse Turing Test and analyze deceptive alignment through multi-agent simulations and develops an anti-jailbreaking system by testing it with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated adversarial scenarios. The detection capabilities are strong such as 94\% accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities when under long attacks as prompt length increases attack success rates (ASR) and diversity metrics become ineffective in prediction while revealing multiple complex system faults. The findings demonstrate the necessity of adopting flexible security systems based on active monitoring that can be performed by the agents themselves together with adaptable interventions by system admin as the current models can create vulnerabilities that can lead to the unreliable and vulnerable system. So, in our work, we try to address such situations and propose a comprehensive framework to counteract the security issues.

Beschermers van het Agentic Systeem: Het voorkomen van de Many Shots Jailbreak met het Agentic Systeem

Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Samenvatting

Support