ChatPaper.aiChatPaper

SoK: Bewertung von Jailbreak-Sicherheitsmechanismen für große Sprachmodelle

SoK: Evaluating Jailbreak Guardrails for Large Language Models

June 12, 2025
Autoren: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte erzielt, doch ihr Einsatz hat kritische Schwachstellen offengelegt, insbesondere gegenüber Jailbreak-Angriffen, die Sicherheitsmechanismen umgehen. Guardrails – externe Abwehrmechanismen, die die Interaktion mit LLMs überwachen und steuern – haben sich als vielversprechende Lösung herausgestellt. Allerdings ist die derzeitige Landschaft der LLM-Guardrails fragmentiert und es fehlt an einer einheitlichen Taxonomie und einem umfassenden Bewertungsrahmen. In diesem Systematisierungswissen (SoK)-Papier präsentieren wir die erste ganzheitliche Analyse von Jailbreak-Guardrails für LLMs. Wir schlagen eine neuartige, mehrdimensionale Taxonomie vor, die Guardrails entlang sechs Schlüsseldimensionen kategorisiert, und führen einen Sicherheit-Effizienz-Nutzen-Bewertungsrahmen ein, um ihre praktische Wirksamkeit zu bewerten. Durch umfangreiche Analysen und Experimente identifizieren wir die Stärken und Grenzen bestehender Guardrail-Ansätze, untersuchen ihre Universalität über verschiedene Angriffstypen hinweg und geben Einblicke in die Optimierung von Verteidigungskombinationen. Unsere Arbeit bietet eine strukturierte Grundlage für zukünftige Forschung und Entwicklung, mit dem Ziel, den prinzipiengeleiteten Fortschritt und die Bereitstellung robuster LLM-Guardrails zu fördern. Der Code ist verfügbar unter https://github.com/xunguangwang/SoK4JailbreakGuardrails.
English
Large Language Models (LLMs) have achieved remarkable progress, but their deployment has exposed critical vulnerabilities, particularly to jailbreak attacks that circumvent safety mechanisms. Guardrails--external defense mechanisms that monitor and control LLM interaction--have emerged as a promising solution. However, the current landscape of LLM guardrails is fragmented, lacking a unified taxonomy and comprehensive evaluation framework. In this Systematization of Knowledge (SoK) paper, we present the first holistic analysis of jailbreak guardrails for LLMs. We propose a novel, multi-dimensional taxonomy that categorizes guardrails along six key dimensions, and introduce a Security-Efficiency-Utility evaluation framework to assess their practical effectiveness. Through extensive analysis and experiments, we identify the strengths and limitations of existing guardrail approaches, explore their universality across attack types, and provide insights into optimizing defense combinations. Our work offers a structured foundation for future research and development, aiming to guide the principled advancement and deployment of robust LLM guardrails. The code is available at https://github.com/xunguangwang/SoK4JailbreakGuardrails.
PDF31June 24, 2025