Guardiões do Sistema Agente: Prevenindo a Fuga de Muitos Tiros com o Sistema Agente
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
Autores: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
Resumo
Os agentes de IA autônomos que utilizam grandes modelos de linguagem podem criar valores inegáveis em todos os setores da sociedade, mas enfrentam ameaças de segurança por parte de adversários que exigem soluções protetivas imediatas, uma vez que surgem questões de confiança e segurança. Considerando o jailbreaking de muitos disparos e o alinhamento enganoso como alguns dos principais ataques avançados, que não podem ser mitigados pelas barreiras estáticas utilizadas durante o treinamento supervisionado, aponta para uma prioridade crucial de pesquisa para a robustez no mundo real. A combinação de barreiras estáticas em um sistema multiagente dinâmico falha em defender contra esses ataques. Pretendemos aprimorar a segurança para agentes baseados em LLM por meio do desenvolvimento de novos frameworks de avaliação que identificam e combatem ameaças para um deployment operacional seguro. Nosso trabalho utiliza três métodos de exame para detectar agentes fraudulentos por meio de um Teste de Turing Reverso e analisar o alinhamento enganoso por meio de simulações multiagente, e desenvolve um sistema anti-jailbreaking testando-o com os modelos GEMINI 1.5 pro e llama-3.3-70B, deepseek r1, usando cenários adversariais mediados por ferramentas. As capacidades de detecção são fortes, como uma precisão de 94\% para o GEMINI 1.5 pro, no entanto, o sistema sofre vulnerabilidades persistentes durante ataques prolongados, à medida que o comprimento da solicitação aumenta as taxas de sucesso do ataque (ASR) e as métricas de diversidade se tornam ineficazes na previsão, revelando múltiplas falhas complexas no sistema. Os resultados demonstram a necessidade de adotar sistemas de segurança flexíveis baseados em monitoramento ativo que podem ser realizados pelos próprios agentes, juntamente com intervenções adaptáveis pelo administrador do sistema, uma vez que os modelos atuais podem criar vulnerabilidades que podem levar a um sistema não confiável e vulnerável. Assim, em nosso trabalho, tentamos abordar tais situações e propor um framework abrangente para combater os problemas de segurança.
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary