ChatPaper.aiChatPaper

Hüter des agentischen Systems: Verhindern des Many Shots Jailbreaks mit dem agentischen System.

Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

February 23, 2025
Autoren: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir
cs.AI

Zusammenfassung

Die autonomen KI-Agenten, die große Sprachmodelle verwenden, können unbestreitbare Werte in allen Bereichen der Gesellschaft schaffen, stehen jedoch Sicherheitsbedrohungen von Gegnern gegenüber, die sofortige Schutzlösungen erfordern, da Vertrauens- und Sicherheitsprobleme auftreten. Die Berücksichtigung von Many-Shot-Jailbreaking und betrügerischer Ausrichtung als einige der Hauptfortgeschrittenen Angriffe, die nicht durch die statischen Leitplanken, die während des überwachten Trainings verwendet werden, gemildert werden können, weist auf eine entscheidende Forschungspriorität für die Robustheit in der realen Welt hin. Die Kombination von statischen Leitplanken in einem dynamischen Multi-Agenten-System versagt bei der Abwehr dieser Angriffe. Wir beabsichtigen, die Sicherheit für KI-Agenten auf der Grundlage großer Sprachmodelle durch die Entwicklung neuer Bewertungsrahmen zu verbessern, die Bedrohungen für einen sicheren operativen Einsatz identifizieren und bekämpfen. Unsere Arbeit verwendet drei Prüfmethoden, um Schurkenagenten durch einen Reverse-Turing-Test zu erkennen und betrügerische Ausrichtung durch Multi-Agenten-Simulationen zu analysieren und ein Anti-Jailbreaking-System zu entwickeln, indem es mit GEMINI 1.5 Pro und Llama-3.3-70B, DeepSeek R1-Modellen unter Verwendung von werkzeugvermittelten adversen Szenarien getestet wird. Die Erkennungsfähigkeiten sind stark, wie z. B. eine 94\%ige Genauigkeit für GEMINI 1.5 Pro, dennoch leidet das System unter anhaltenden Schwachstellen bei langen Angriffen, da mit zunehmender Promptlänge die Erfolgsraten von Angriffen (ASR) steigen und Diversitätsmetriken bei der Vorhersage unwirksam werden, während mehrere komplexe Systemfehler aufgedeckt werden. Die Ergebnisse zeigen die Notwendigkeit der Annahme flexibler Sicherheitssysteme auf, die auf aktiver Überwachung basieren, die von den Agenten selbst durchgeführt werden kann, zusammen mit anpassbaren Interventionen durch das System-Admin, da die aktuellen Modelle Schwachstellen schaffen können, die zu einem unzuverlässigen und anfälligen System führen können. Daher versuchen wir in unserer Arbeit, solche Situationen anzugehen und schlagen einen umfassenden Rahmen zur Bekämpfung der Sicherheitsprobleme vor.
English
The autonomous AI agents using large language models can create undeniable values in all span of the society but they face security threats from adversaries that warrants immediate protective solutions because trust and safety issues arise. Considering the many-shot jailbreaking and deceptive alignment as some of the main advanced attacks, that cannot be mitigated by the static guardrails used during the supervised training, points out a crucial research priority for real world robustness. The combination of static guardrails in dynamic multi-agent system fails to defend against those attacks. We intend to enhance security for LLM-based agents through the development of new evaluation frameworks which identify and counter threats for safe operational deployment. Our work uses three examination methods to detect rogue agents through a Reverse Turing Test and analyze deceptive alignment through multi-agent simulations and develops an anti-jailbreaking system by testing it with GEMINI 1.5 pro and llama-3.3-70B, deepseek r1 models using tool-mediated adversarial scenarios. The detection capabilities are strong such as 94\% accuracy for GEMINI 1.5 pro yet the system suffers persistent vulnerabilities when under long attacks as prompt length increases attack success rates (ASR) and diversity metrics become ineffective in prediction while revealing multiple complex system faults. The findings demonstrate the necessity of adopting flexible security systems based on active monitoring that can be performed by the agents themselves together with adaptable interventions by system admin as the current models can create vulnerabilities that can lead to the unreliable and vulnerable system. So, in our work, we try to address such situations and propose a comprehensive framework to counteract the security issues.

Summary

AI-Generated Summary

PDF102February 28, 2025