Guardianes del Sistema Agente: Previniendo el Jailbreak de Muchos Disparos con el Sistema Agente
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System
February 23, 2025
Autores: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI
Resumen
Los agentes autónomos de IA que utilizan grandes modelos de lenguaje pueden crear valores innegables en todos los ámbitos de la sociedad, pero enfrentan amenazas de seguridad por parte de adversarios que requieren soluciones protectoras inmediatas debido a problemas de confianza y seguridad que surgen. Considerando el jailbreaking de múltiples disparos y el alineamiento engañoso como algunos de los principales ataques avanzados, que no pueden ser mitigados por las barreras estáticas utilizadas durante el entrenamiento supervisado, señala una prioridad crucial de investigación para la robustez en el mundo real. La combinación de barreras estáticas en un sistema multiagente dinámico falla en defenderse contra esos ataques. Nuestro objetivo es mejorar la seguridad de los agentes basados en LLM a través del desarrollo de nuevos marcos de evaluación que identifiquen y contrarresten amenazas para un despliegue operativo seguro. Nuestro trabajo utiliza tres métodos de examen para detectar agentes maliciosos a través de una Prueba Inversa de Turing y analizar el alineamiento engañoso mediante simulaciones multiagente, y desarrolla un sistema contra el jailbreaking probándolo con los modelos GEMINI 1.5 pro y llama-3.3-70B, deepseek r1 utilizando escenarios adversariales mediados por herramientas. Las capacidades de detección son sólidas, como el 94\% de precisión para GEMINI 1.5 pro, sin embargo, el sistema sufre vulnerabilidades persistentes durante ataques prolongados a medida que la longitud de la solicitud aumenta las tasas de éxito del ataque (ASR) y las métricas de diversidad se vuelven ineficaces en la predicción, revelando múltiples fallos complejos del sistema. Los hallazgos demuestran la necesidad de adoptar sistemas de seguridad flexibles basados en monitoreo activo que pueden ser realizados por los propios agentes junto con intervenciones adaptables por parte del administrador del sistema, ya que los modelos actuales pueden crear vulnerabilidades que pueden llevar a un sistema poco confiable y vulnerable. Por lo tanto, en nuestro trabajo, intentamos abordar tales situaciones y proponemos un marco integral para contrarrestar los problemas de seguridad.
English
The autonomous AI agents using large language models can create undeniable
values in all span of the society but they face security threats from
adversaries that warrants immediate protective solutions because trust and
safety issues arise. Considering the many-shot jailbreaking and deceptive
alignment as some of the main advanced attacks, that cannot be mitigated by the
static guardrails used during the supervised training, points out a crucial
research priority for real world robustness. The combination of static
guardrails in dynamic multi-agent system fails to defend against those attacks.
We intend to enhance security for LLM-based agents through the development of
new evaluation frameworks which identify and counter threats for safe
operational deployment. Our work uses three examination methods to detect rogue
agents through a Reverse Turing Test and analyze deceptive alignment through
multi-agent simulations and develops an anti-jailbreaking system by testing it
with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated
adversarial scenarios. The detection capabilities are strong such as 94\%
accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities
when under long attacks as prompt length increases attack success rates (ASR)
and diversity metrics become ineffective in prediction while revealing multiple
complex system faults. The findings demonstrate the necessity of adopting
flexible security systems based on active monitoring that can be performed by
the agents themselves together with adaptable interventions by system admin as
the current models can create vulnerabilities that can lead to the unreliable
and vulnerable system. So, in our work, we try to address such situations and
propose a comprehensive framework to counteract the security issues.Summary
AI-Generated Summary