WildGuard: Open One-Stop Moderatiehulpmiddelen voor Veiligheidsrisico's, Jailbreaks en Weigeringen van LLM's
WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs
June 26, 2024
Auteurs: Seungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri
cs.AI
Samenvatting
We introduceren WildGuard -- een open, lichtgewicht moderatietool voor de veiligheid van LLM's die drie doelen bereikt: (1) het identificeren van kwaadaardige intenties in gebruikersprompts, (2) het detecteren van veiligheidsrisico's in modelreacties, en (3) het bepalen van de weigeringsfrequentie van het model. Samen voorziet WildGuard in de groeiende behoefte aan automatische veiligheidsmoderatie en evaluatie van LLM-interacties, en biedt het een alles-in-één tool met verbeterde nauwkeurigheid en brede dekking over 13 risicocategorieën. Hoewel bestaande open moderatietools zoals Llama-Guard2 redelijk goed scoren in het classificeren van eenvoudige modelinteracties, blijven ze ver achter bij een geprompt GPT-4, vooral in het identificeren van adversariële jailbreaks en in het evalueren van modelweigeringen, een cruciale maatstaf voor het beoordelen van veiligheidsgedrag in modelreacties.
Om deze uitdagingen aan te pakken, construeren we WildGuardMix, een grootschalige en zorgvuldig gebalanceerde multi-task veiligheidsmoderatiedataset met 92K gelabelde voorbeelden die zowel standaard (directe) prompts als adversariële jailbreaks omvatten, gekoppeld aan verschillende weigerings- en nalevingsreacties. WildGuardMix is een combinatie van WildGuardTrain, de trainingsdata van WildGuard, en WildGuardTest, een hoogwaardige door mensen geannoteerde moderatietestset met 5K gelabelde items die een breed scala aan risicoscenario's bestrijken. Door uitgebreide evaluaties op WildGuardTest en tien bestaande openbare benchmarks tonen we aan dat WildGuard state-of-the-art prestaties levert in open-source veiligheidsmoderatie over alle drie de taken in vergelijking met tien sterke bestaande open-source moderatiemodellen (bijvoorbeeld tot 26,4% verbetering in weigeringsdetectie). Belangrijk is dat WildGuard de prestaties van GPT-4 evenaart en soms zelfs overtreft (bijvoorbeeld tot 3,9% verbetering in het identificeren van schadelijke prompts). WildGuard fungeert als een zeer effectieve veiligheidsmoderator in een LLM-interface, waardoor het slagingspercentage van jailbreak-aanvallen daalt van 79,8% naar 2,4%.
English
We introduce WildGuard -- an open, light-weight moderation tool for LLM
safety that achieves three goals: (1) identifying malicious intent in user
prompts, (2) detecting safety risks of model responses, and (3) determining
model refusal rate. Together, WildGuard serves the increasing needs for
automatic safety moderation and evaluation of LLM interactions, providing a
one-stop tool with enhanced accuracy and broad coverage across 13 risk
categories. While existing open moderation tools such as Llama-Guard2 score
reasonably well in classifying straightforward model interactions, they lag far
behind a prompted GPT-4, especially in identifying adversarial jailbreaks and
in evaluating models' refusals, a key measure for evaluating safety behaviors
in model responses.
To address these challenges, we construct WildGuardMix, a large-scale and
carefully balanced multi-task safety moderation dataset with 92K labeled
examples that cover vanilla (direct) prompts and adversarial jailbreaks, paired
with various refusal and compliance responses. WildGuardMix is a combination of
WildGuardTrain, the training data of WildGuard, and WildGuardTest, a
high-quality human-annotated moderation test set with 5K labeled items covering
broad risk scenarios. Through extensive evaluations on WildGuardTest and ten
existing public benchmarks, we show that WildGuard establishes state-of-the-art
performance in open-source safety moderation across all the three tasks
compared to ten strong existing open-source moderation models (e.g., up to
26.4% improvement on refusal detection). Importantly, WildGuard matches and
sometimes exceeds GPT-4 performance (e.g., up to 3.9% improvement on prompt
harmfulness identification). WildGuard serves as a highly effective safety
moderator in an LLM interface, reducing the success rate of jailbreak attacks
from 79.8% to 2.4%.