PrimeGuard: Modelli Linguistici Grandi Sicuri e Utili tramite Instradamento Senza Ottimizzazione
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
July 23, 2024
Autori: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
cs.AI
Abstract
Il dispiegamento di modelli linguistici (LM) richiede che gli output siano di alta qualità e conformi alle linee guida di sicurezza. Sebbene le barriere di sicurezza al momento dell'inferenza (Inference-Time Guardrails, ITG) offrano soluzioni che spostano le distribuzioni degli output del modello verso la conformità, riscontriamo che i metodi attuali faticano a bilanciare sicurezza e utilità. I metodi ITG che affrontano in modo sicuro le query non conformi mostrano una minore utilità, mentre quelli che privilegiano l'utilità compromettono la sicurezza. Definiamo questo compromesso come la "tassa delle barriere di sicurezza", analoga alla "tassa di allineamento". Per affrontare questo problema, proponiamo PrimeGuard, un nuovo metodo ITG che utilizza un flusso di controllo strutturato.
PrimeGuard indirizza le richieste a diverse auto-istanziazioni del LM con istruzioni variabili, sfruttando le sue capacità intrinseche di seguire le istruzioni e l'apprendimento in contesto. Il nostro approccio senza sintonizzazione compila dinamicamente le linee guida del progettista del sistema per ogni query. Costruiamo e rilasciamo safe-eval, un benchmark di sicurezza diversificato per red team. Valutazioni estensive dimostrano che PrimeGuard, senza sintonizzazione, supera la tassa delle barriere di sicurezza (1) aumentando significativamente la resistenza agli attacchi di jailbreak iterativi e (2) raggiungendo risultati all'avanguardia nella protezione della sicurezza, mentre (3) eguaglia i punteggi di utilità dei modelli sintonizzati per l'allineamento. Valutazioni estensive dimostrano che PrimeGuard, senza sintonizzazione, supera tutte le baseline concorrenti e supera la tassa delle barriere di sicurezza migliorando la frazione di risposte sicure dal 61% al 97% e aumentando i punteggi medi di utilità da 4,17 a 4,29 sui modelli più grandi, riducendo il tasso di successo degli attacchi dal 100% all'8%.
L'implementazione di PrimeGuard è disponibile all'indirizzo https://github.com/dynamofl/PrimeGuard e il dataset safe-eval è disponibile all'indirizzo https://huggingface.co/datasets/dynamoai/safe_eval.
English
Deploying language models (LMs) necessitates outputs to be both high-quality
and compliant with safety guidelines. Although Inference-Time Guardrails (ITG)
offer solutions that shift model output distributions towards compliance, we
find that current methods struggle in balancing safety with helpfulness. ITG
Methods that safely address non-compliant queries exhibit lower helpfulness
while those that prioritize helpfulness compromise on safety. We refer to this
trade-off as the guardrail tax, analogous to the alignment tax. To address
this, we propose PrimeGuard, a novel ITG method that utilizes structured
control flow.
PrimeGuard routes requests to different self-instantiations of the LM with
varying instructions, leveraging its inherent instruction-following
capabilities and in-context learning. Our tuning-free approach dynamically
compiles system-designer guidelines for each query. We construct and release
safe-eval, a diverse red-team safety benchmark. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax
by (1) significantly increasing resistance to iterative jailbreak attacks and
(2) achieving state-of-the-art results in safety guardrailing while (3)
matching helpfulness scores of alignment-tuned models. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, outperforms all competing
baselines and overcomes the guardrail tax by improving the fraction of safe
responses from 61% to 97% and increasing average helpfulness scores from 4.17
to 4.29 on the largest models, while reducing attack success rate from 100% to
8%.
PrimeGuard implementation is available at
https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at
https://huggingface.co/datasets/dynamoai/safe_eval.