SoK: Avaliação de Barreiras de Segurança para Modelos de Linguagem de Grande Escala
SoK: Evaluating Jailbreak Guardrails for Large Language Models
June 12, 2025
Autores: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis, mas sua implantação expôs vulnerabilidades críticas, especialmente a ataques de jailbreak que contornam mecanismos de segurança. Guardrails—mecanismos de defesa externos que monitoram e controlam a interação com LLMs—emergiram como uma solução promissora. No entanto, o cenário atual de guardrails para LLMs é fragmentado, carecendo de uma taxonomia unificada e de um framework de avaliação abrangente. Neste artigo de Sistematização do Conhecimento (SoK), apresentamos a primeira análise holística de guardrails contra jailbreak para LLMs. Propomos uma nova taxonomia multidimensional que categoriza os guardrails ao longo de seis dimensões-chave e introduzimos um framework de avaliação Segurança-Eficiência-Utilidade para mensurar sua eficácia prática. Por meio de análises e experimentos extensivos, identificamos os pontos fortes e as limitações das abordagens de guardrail existentes, exploramos sua universalidade em diferentes tipos de ataques e oferecemos insights para otimizar combinações de defesa. Nosso trabalho fornece uma base estruturada para pesquisas e desenvolvimentos futuros, visando orientar o avanço e a implantação principled de guardrails robustos para LLMs. O código está disponível em https://github.com/xunguangwang/SoK4JailbreakGuardrails.
English
Large Language Models (LLMs) have achieved remarkable progress, but their
deployment has exposed critical vulnerabilities, particularly to jailbreak
attacks that circumvent safety mechanisms. Guardrails--external defense
mechanisms that monitor and control LLM interaction--have emerged as a
promising solution. However, the current landscape of LLM guardrails is
fragmented, lacking a unified taxonomy and comprehensive evaluation framework.
In this Systematization of Knowledge (SoK) paper, we present the first holistic
analysis of jailbreak guardrails for LLMs. We propose a novel,
multi-dimensional taxonomy that categorizes guardrails along six key
dimensions, and introduce a Security-Efficiency-Utility evaluation framework to
assess their practical effectiveness. Through extensive analysis and
experiments, we identify the strengths and limitations of existing guardrail
approaches, explore their universality across attack types, and provide
insights into optimizing defense combinations. Our work offers a structured
foundation for future research and development, aiming to guide the principled
advancement and deployment of robust LLM guardrails. The code is available at
https://github.com/xunguangwang/SoK4JailbreakGuardrails.