Guardiões do Sistema Agente: Prevenindo a Fuga de Muitos Tiros com o Sistema Agente

Resumo

Os agentes de IA autônomos que utilizam grandes modelos de linguagem podem criar valores inegáveis em todos os setores da sociedade, mas enfrentam ameaças de segurança por parte de adversários que exigem soluções protetivas imediatas, uma vez que surgem questões de confiança e segurança. Considerando o jailbreaking de muitos disparos e o alinhamento enganoso como alguns dos principais ataques avançados, que não podem ser mitigados pelas barreiras estáticas utilizadas durante o treinamento supervisionado, aponta para uma prioridade crucial de pesquisa para a robustez no mundo real. A combinação de barreiras estáticas em um sistema multiagente dinâmico falha em defender contra esses ataques. Pretendemos aprimorar a segurança para agentes baseados em LLM por meio do desenvolvimento de novos frameworks de avaliação que identificam e combatem ameaças para um deployment operacional seguro. Nosso trabalho utiliza três métodos de exame para detectar agentes fraudulentos por meio de um Teste de Turing Reverso e analisar o alinhamento enganoso por meio de simulações multiagente, e desenvolve um sistema anti-jailbreaking testando-o com os modelos GEMINI 1.5 pro e llama-3.3-70B, deepseek r1, usando cenários adversariais mediados por ferramentas. As capacidades de detecção são fortes, como uma precisão de 94\% para o GEMINI 1.5 pro, no entanto, o sistema sofre vulnerabilidades persistentes durante ataques prolongados, à medida que o comprimento da solicitação aumenta as taxas de sucesso do ataque (ASR) e as métricas de diversidade se tornam ineficazes na previsão, revelando múltiplas falhas complexas no sistema. Os resultados demonstram a necessidade de adotar sistemas de segurança flexíveis baseados em monitoramento ativo que podem ser realizados pelos próprios agentes, juntamente com intervenções adaptáveis pelo administrador do sistema, uma vez que os modelos atuais podem criar vulnerabilidades que podem levar a um sistema não confiável e vulnerável. Assim, em nosso trabalho, tentamos abordar tais situações e propor um framework abrangente para combater os problemas de segurança.

English

The autonomous AI agents using large language models can create undeniable values in all span of the society but they face security threats from adversaries that warrants immediate protective solutions because trust and safety issues arise. Considering the many-shot jailbreaking and deceptive alignment as some of the main advanced attacks, that cannot be mitigated by the static guardrails used during the supervised training, points out a crucial research priority for real world robustness. The combination of static guardrails in dynamic multi-agent system fails to defend against those attacks. We intend to enhance security for LLM-based agents through the development of new evaluation frameworks which identify and counter threats for safe operational deployment. Our work uses three examination methods to detect rogue agents through a Reverse Turing Test and analyze deceptive alignment through multi-agent simulations and develops an anti-jailbreaking system by testing it with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated adversarial scenarios. The detection capabilities are strong such as 94\% accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities when under long attacks as prompt length increases attack success rates (ASR) and diversity metrics become ineffective in prediction while revealing multiple complex system faults. The findings demonstrate the necessity of adopting flexible security systems based on active monitoring that can be performed by the agents themselves together with adaptable interventions by system admin as the current models can create vulnerabilities that can lead to the unreliable and vulnerable system. So, in our work, we try to address such situations and propose a comprehensive framework to counteract the security issues.

Guardiões do Sistema Agente: Prevenindo a Fuga de Muitos Tiros com o Sistema Agente

Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Resumo

Support