PrimeGuard: Sichere und hilfreiche LLMs durch Routing ohne Abstimmung
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
July 23, 2024
Autoren: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
cs.AI
Zusammenfassung
Die Bereitstellung von Sprachmodellen (LMs) erfordert, dass die Ausgaben sowohl von hoher Qualität sind als auch den Sicherheitsrichtlinien entsprechen. Obwohl Inference-Time Guardrails (ITG) Lösungen anbieten, die die Ausgabeverteilungen des Modells in Richtung Konformität verschieben, stellen wir fest, dass aktuelle Methoden Schwierigkeiten haben, Sicherheit und Hilfreichkeit auszubalancieren. ITG-Methoden, die nicht konforme Anfragen sicher behandeln, weisen eine geringere Hilfreichkeit auf, während solche, die Hilfreichkeit priorisieren, bei der Sicherheit Kompromisse eingehen. Wir bezeichnen diesen Kompromiss als "Guardrail Tax", analog zur "Alignment Tax". Um dies zu lösen, schlagen wir PrimeGuard vor, eine neuartige ITG-Methode, die strukturierten Kontrollfluss nutzt.
PrimeGuard leitet Anfragen an verschiedene Selbstinstanzen des LM mit unterschiedlichen Anweisungen weiter, wobei es seine inhärenten Anweisungsfolgefähigkeiten und das kontextbezogene Lernen nutzt. Unser abstimmungsfreier Ansatz kompiliert dynamisch Richtlinien des Systemdesigners für jede Anfrage. Wir erstellen und veröffentlichen safe-eval, einen vielfältigen Sicherheitsbenchmark für Red-Teams. Umfangreiche Evaluierungen zeigen, dass PrimeGuard, ohne Feinabstimmung, die Guardrail Tax überwindet, indem es (1) die Resistenz gegen iterative Jailbreak-Angriffe signifikant erhöht und (2) Spitzenleistungen bei der Sicherheitsabsicherung erzielt, während (3) die Hilfreichkeitsergebnisse von Alignment-abgestimmten Modellen erreicht werden. Umfangreiche Evaluierungen zeigen, dass PrimeGuard, ohne Feinabstimmung, alle konkurrierenden Baselines übertrifft und die Guardrail Tax überwindet, indem der Anteil sicherer Antworten von 61% auf 97% erhöht und die durchschnittlichen Hilfreichkeitsergebnisse von 4,17 auf 4,29 bei den größten Modellen steigert, während die Erfolgsrate von Angriffen von 100% auf 8% reduziert wird.
Die Implementierung von PrimeGuard ist verfügbar unter https://github.com/dynamofl/PrimeGuard und der safe-eval Datensatz ist verfügbar unter https://huggingface.co/datasets/dynamoai/safe_eval.
English
Deploying language models (LMs) necessitates outputs to be both high-quality
and compliant with safety guidelines. Although Inference-Time Guardrails (ITG)
offer solutions that shift model output distributions towards compliance, we
find that current methods struggle in balancing safety with helpfulness. ITG
Methods that safely address non-compliant queries exhibit lower helpfulness
while those that prioritize helpfulness compromise on safety. We refer to this
trade-off as the guardrail tax, analogous to the alignment tax. To address
this, we propose PrimeGuard, a novel ITG method that utilizes structured
control flow.
PrimeGuard routes requests to different self-instantiations of the LM with
varying instructions, leveraging its inherent instruction-following
capabilities and in-context learning. Our tuning-free approach dynamically
compiles system-designer guidelines for each query. We construct and release
safe-eval, a diverse red-team safety benchmark. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax
by (1) significantly increasing resistance to iterative jailbreak attacks and
(2) achieving state-of-the-art results in safety guardrailing while (3)
matching helpfulness scores of alignment-tuned models. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, outperforms all competing
baselines and overcomes the guardrail tax by improving the fraction of safe
responses from 61% to 97% and increasing average helpfulness scores from 4.17
to 4.29 on the largest models, while reducing attack success rate from 100% to
8%.
PrimeGuard implementation is available at
https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at
https://huggingface.co/datasets/dynamoai/safe_eval.Summary
AI-Generated Summary