SoK: Evaluatie van Jailbreak-beveiligingsmaatregelen voor Grote Taalmodellen

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt, maar hun inzet heeft kritieke kwetsbaarheden blootgelegd, met name voor jailbreak-aanvallen die veiligheidsmechanismen omzeilen. Guardrails—externe verdedigingsmechanismen die de interactie met LLMs monitoren en controleren—zijn naar voren gekomen als een veelbelovende oplossing. Het huidige landschap van LLM-guardrails is echter gefragmenteerd, zonder een uniforme taxonomie en een uitgebreid evaluatiekader. In deze Systematisering van Kennis (SoK) presenteren we de eerste holistische analyse van jailbreak-guardrails voor LLMs. We introduceren een nieuwe, multidimensionale taxonomie die guardrails categoriseert langs zes belangrijke dimensies, en introduceren een Security-Efficiency-Utility evaluatiekader om hun praktische effectiviteit te beoordelen. Door uitgebreide analyse en experimenten identificeren we de sterke punten en beperkingen van bestaande guardrail-benaderingen, onderzoeken we hun universaliteit over verschillende aanvalstypen heen, en bieden we inzichten voor het optimaliseren van verdedigingscombinaties. Ons werk biedt een gestructureerde basis voor toekomstig onderzoek en ontwikkeling, met als doel het principiële vooruitgang en inzet van robuuste LLM-guardrails te begeleiden. De code is beschikbaar op https://github.com/xunguangwang/SoK4JailbreakGuardrails.

English

Large Language Models (LLMs) have achieved remarkable progress, but their deployment has exposed critical vulnerabilities, particularly to jailbreak attacks that circumvent safety mechanisms. Guardrails--external defense mechanisms that monitor and control LLM interaction--have emerged as a promising solution. However, the current landscape of LLM guardrails is fragmented, lacking a unified taxonomy and comprehensive evaluation framework. In this Systematization of Knowledge (SoK) paper, we present the first holistic analysis of jailbreak guardrails for LLMs. We propose a novel, multi-dimensional taxonomy that categorizes guardrails along six key dimensions, and introduce a Security-Efficiency-Utility evaluation framework to assess their practical effectiveness. Through extensive analysis and experiments, we identify the strengths and limitations of existing guardrail approaches, explore their universality across attack types, and provide insights into optimizing defense combinations. Our work offers a structured foundation for future research and development, aiming to guide the principled advancement and deployment of robust LLM guardrails. The code is available at https://github.com/xunguangwang/SoK4JailbreakGuardrails.

SoK: Evaluatie van Jailbreak-beveiligingsmaatregelen voor Grote Taalmodellen

SoK: Evaluating Jailbreak Guardrails for Large Language Models

Samenvatting

Support