ChatPaper.aiChatPaper

SoK: Оценка защитных механизмов от взлома в крупных языковых моделях

SoK: Evaluating Jailbreak Guardrails for Large Language Models

June 12, 2025
Авторы: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
cs.AI

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов, однако их внедрение выявило серьёзные уязвимости, особенно к атакам типа "jailbreak", которые обходят механизмы безопасности. "Защитные барьеры" (guardrails) — внешние механизмы защиты, которые отслеживают и контролируют взаимодействие с LLM, — стали перспективным решением. Однако текущий ландшафт таких барьеров фрагментирован и лишён единой таксономии и всеобъемлющей системы оценки. В данной работе, систематизирующей знания (SoK), мы представляем первый целостный анализ защитных барьеров для LLM от атак jailbreak. Мы предлагаем новую многомерную таксономию, классифицирующую барьеры по шести ключевым измерениям, и вводим оценочную систему "Безопасность-Эффективность-Полезность" для оценки их практической эффективности. На основе обширного анализа и экспериментов мы выявляем сильные и слабые стороны существующих подходов, исследуем их универсальность для различных типов атак и предлагаем рекомендации по оптимизации комбинаций защитных механизмов. Наша работа создаёт структурированную основу для будущих исследований и разработок, направляя принципиальное развитие и внедрение надёжных защитных барьеров для LLM. Код доступен по адресу: https://github.com/xunguangwang/SoK4JailbreakGuardrails.
English
Large Language Models (LLMs) have achieved remarkable progress, but their deployment has exposed critical vulnerabilities, particularly to jailbreak attacks that circumvent safety mechanisms. Guardrails--external defense mechanisms that monitor and control LLM interaction--have emerged as a promising solution. However, the current landscape of LLM guardrails is fragmented, lacking a unified taxonomy and comprehensive evaluation framework. In this Systematization of Knowledge (SoK) paper, we present the first holistic analysis of jailbreak guardrails for LLMs. We propose a novel, multi-dimensional taxonomy that categorizes guardrails along six key dimensions, and introduce a Security-Efficiency-Utility evaluation framework to assess their practical effectiveness. Through extensive analysis and experiments, we identify the strengths and limitations of existing guardrail approaches, explore their universality across attack types, and provide insights into optimizing defense combinations. Our work offers a structured foundation for future research and development, aiming to guide the principled advancement and deployment of robust LLM guardrails. The code is available at https://github.com/xunguangwang/SoK4JailbreakGuardrails.
PDF32June 24, 2025