SoK: Evaluación de Barreras de Protección contra Jailbreak en Modelos de Lenguaje a Gran Escala
SoK: Evaluating Jailbreak Guardrails for Large Language Models
June 12, 2025
Autores: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables, pero su implementación ha expuesto vulnerabilidades críticas, particularmente frente a ataques de jailbreak que eluden los mecanismos de seguridad. Las barreras de protección (guardrails)—mecanismos de defensa externos que monitorean y controlan la interacción con los LLMs—han surgido como una solución prometedora. Sin embargo, el panorama actual de las barreras de protección para LLMs está fragmentado, careciendo de una taxonomía unificada y un marco de evaluación integral. En este artículo de Sistematización del Conocimiento (SoK), presentamos el primer análisis holístico de las barreras de protección contra jailbreak para LLMs. Proponemos una taxonomía novedosa y multidimensional que categoriza las barreras de protección en seis dimensiones clave, e introducimos un marco de evaluación Seguridad-Eficiencia-Utilidad para valorar su efectividad práctica. A través de un análisis extenso y experimentos, identificamos las fortalezas y limitaciones de los enfoques existentes de barreras de protección, exploramos su universalidad frente a diferentes tipos de ataques y ofrecemos ideas para optimizar combinaciones de defensas. Nuestro trabajo proporciona una base estructurada para futuras investigaciones y desarrollos, con el objetivo de guiar el avance y la implementación de barreras de protección robustas para LLMs de manera fundamentada. El código está disponible en https://github.com/xunguangwang/SoK4JailbreakGuardrails.
English
Large Language Models (LLMs) have achieved remarkable progress, but their
deployment has exposed critical vulnerabilities, particularly to jailbreak
attacks that circumvent safety mechanisms. Guardrails--external defense
mechanisms that monitor and control LLM interaction--have emerged as a
promising solution. However, the current landscape of LLM guardrails is
fragmented, lacking a unified taxonomy and comprehensive evaluation framework.
In this Systematization of Knowledge (SoK) paper, we present the first holistic
analysis of jailbreak guardrails for LLMs. We propose a novel,
multi-dimensional taxonomy that categorizes guardrails along six key
dimensions, and introduce a Security-Efficiency-Utility evaluation framework to
assess their practical effectiveness. Through extensive analysis and
experiments, we identify the strengths and limitations of existing guardrail
approaches, explore their universality across attack types, and provide
insights into optimizing defense combinations. Our work offers a structured
foundation for future research and development, aiming to guide the principled
advancement and deployment of robust LLM guardrails. The code is available at
https://github.com/xunguangwang/SoK4JailbreakGuardrails.