ChatPaper.aiChatPaper

SoK: Valutazione delle Barriere Protettive contro il Jailbreak nei Modelli Linguistici di Grande Dimensione

SoK: Evaluating Jailbreak Guardrails for Large Language Models

June 12, 2025
Autori: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
cs.AI

Abstract

I Large Language Model (LLM) hanno compiuto progressi significativi, ma il loro dispiegamento ha rivelato vulnerabilità critiche, in particolare agli attacchi di jailbreak che aggirano i meccanismi di sicurezza. Le guardrail—meccanismi di difesa esterni che monitorano e controllano l'interazione con gli LLM—si sono affermate come una soluzione promettente. Tuttavia, l'attuale panorama delle guardrail per LLM è frammentato, privo di una tassonomia unificata e di un quadro di valutazione completo. In questo articolo di Systematization of Knowledge (SoK), presentiamo la prima analisi olistica delle guardrail contro il jailbreak per gli LLM. Proponiamo una nuova tassonomia multidimensionale che classifica le guardrail lungo sei dimensioni chiave e introduciamo un framework di valutazione Sicurezza-Efficienza-Utilità per valutarne l'efficacia pratica. Attraverso un'analisi approfondita e esperimenti, identifichiamo i punti di forza e i limiti degli approcci esistenti alle guardrail, esploriamo la loro universalità rispetto ai tipi di attacco e forniamo spunti per ottimizzare le combinazioni di difesa. Il nostro lavoro offre una base strutturata per la ricerca e lo sviluppo futuri, con l'obiettivo di guidare il progresso e il dispiegamento di guardrail robuste per gli LLM in modo principiato. Il codice è disponibile all'indirizzo https://github.com/xunguangwang/SoK4JailbreakGuardrails.
English
Large Language Models (LLMs) have achieved remarkable progress, but their deployment has exposed critical vulnerabilities, particularly to jailbreak attacks that circumvent safety mechanisms. Guardrails--external defense mechanisms that monitor and control LLM interaction--have emerged as a promising solution. However, the current landscape of LLM guardrails is fragmented, lacking a unified taxonomy and comprehensive evaluation framework. In this Systematization of Knowledge (SoK) paper, we present the first holistic analysis of jailbreak guardrails for LLMs. We propose a novel, multi-dimensional taxonomy that categorizes guardrails along six key dimensions, and introduce a Security-Efficiency-Utility evaluation framework to assess their practical effectiveness. Through extensive analysis and experiments, we identify the strengths and limitations of existing guardrail approaches, explore their universality across attack types, and provide insights into optimizing defense combinations. Our work offers a structured foundation for future research and development, aiming to guide the principled advancement and deployment of robust LLM guardrails. The code is available at https://github.com/xunguangwang/SoK4JailbreakGuardrails.
PDF32June 24, 2025