SoK : Évaluation des dispositifs de protection contre les contournements pour les grands modèles de langage
SoK: Evaluating Jailbreak Guardrails for Large Language Models
June 12, 2025
Auteurs: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès remarquables, mais leur déploiement a révélé des vulnérabilités critiques, notamment face aux attaques de jailbreak qui contournent les mécanismes de sécurité. Les garde-fous—des mécanismes de défense externes qui surveillent et contrôlent les interactions avec les LLMs—se sont imposés comme une solution prometteuse. Cependant, le paysage actuel des garde-fous pour LLMs est fragmenté, manquant d'une taxonomie unifiée et d'un cadre d'évaluation complet. Dans cet article de systématisation des connaissances (SoK), nous présentons la première analyse holistique des garde-fous contre les jailbreaks pour les LLMs. Nous proposons une taxonomie novatrice et multidimensionnelle qui catégorise les garde-fous selon six dimensions clés, et introduisons un cadre d'évaluation Sécurité-Efficacité-Utilité pour mesurer leur efficacité pratique. À travers une analyse approfondie et des expériences, nous identifions les forces et les limites des approches existantes de garde-fous, explorons leur universalité face à différents types d'attaques, et fournissons des insights pour optimiser les combinaisons de défenses. Notre travail offre une base structurée pour les recherches et développements futurs, visant à guider l'avancement et le déploiement principié de garde-fous robustes pour les LLMs. Le code est disponible à l'adresse suivante : https://github.com/xunguangwang/SoK4JailbreakGuardrails.
English
Large Language Models (LLMs) have achieved remarkable progress, but their
deployment has exposed critical vulnerabilities, particularly to jailbreak
attacks that circumvent safety mechanisms. Guardrails--external defense
mechanisms that monitor and control LLM interaction--have emerged as a
promising solution. However, the current landscape of LLM guardrails is
fragmented, lacking a unified taxonomy and comprehensive evaluation framework.
In this Systematization of Knowledge (SoK) paper, we present the first holistic
analysis of jailbreak guardrails for LLMs. We propose a novel,
multi-dimensional taxonomy that categorizes guardrails along six key
dimensions, and introduce a Security-Efficiency-Utility evaluation framework to
assess their practical effectiveness. Through extensive analysis and
experiments, we identify the strengths and limitations of existing guardrail
approaches, explore their universality across attack types, and provide
insights into optimizing defense combinations. Our work offers a structured
foundation for future research and development, aiming to guide the principled
advancement and deployment of robust LLM guardrails. The code is available at
https://github.com/xunguangwang/SoK4JailbreakGuardrails.