PrimeGuard : Des modèles de langage sûrs et utiles grâce à un routage sans ajustement
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
July 23, 2024
Auteurs: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
cs.AI
Résumé
Le déploiement de modèles de langage (LMs) nécessite que les sorties soient à la fois de haute qualité et conformes aux directives de sécurité. Bien que les garde-fous au moment de l'inférence (Inference-Time Guardrails, ITG) proposent des solutions qui ajustent les distributions de sortie des modèles vers la conformité, nous constatons que les méthodes actuelles peinent à équilibrer sécurité et utilité. Les méthodes ITG qui traitent de manière sûre les requêtes non conformes montrent une utilité réduite, tandis que celles qui privilégient l'utilité compromettent la sécurité. Nous qualifions ce compromis de "taxe de garde-fou", analogue à la "taxe d'alignement". Pour y remédier, nous proposons PrimeGuard, une nouvelle méthode ITG qui utilise un flux de contrôle structuré.
PrimeGuide achemine les requêtes vers différentes auto-instantiations du LM avec des instructions variées, en exploitant ses capacités inhérentes à suivre des instructions et son apprentissage en contexte. Notre approche, sans nécessiter de réglage, compile dynamiquement les directives du concepteur du système pour chaque requête. Nous construisons et publions safe-eval, un benchmark de sécurité diversifié pour les équipes rouges. Des évaluations approfondies démontrent que PrimeGuard, sans réglage fin, surmonte la taxe de garde-fou en (1) augmentant significativement la résistance aux attaques itératives de contournement et (2) obtenant des résultats de pointe en matière de garde-fou de sécurité tout en (3) égalant les scores d'utilité des modèles ajustés pour l'alignement. Des évaluations approfondies montrent que PrimeGuard, sans réglage fin, surpasse toutes les lignes de base concurrentes et surmonte la taxe de garde-fou en améliorant la fraction de réponses sûres de 61% à 97% et en augmentant les scores d'utilité moyens de 4,17 à 4,29 sur les plus grands modèles, tout en réduisant le taux de réussite des attaques de 100% à 8%.
L'implémentation de PrimeGuard est disponible à l'adresse https://github.com/dynamofl/PrimeGuard et le jeu de données safe-eval est disponible à l'adresse https://huggingface.co/datasets/dynamoai/safe_eval.
English
Deploying language models (LMs) necessitates outputs to be both high-quality
and compliant with safety guidelines. Although Inference-Time Guardrails (ITG)
offer solutions that shift model output distributions towards compliance, we
find that current methods struggle in balancing safety with helpfulness. ITG
Methods that safely address non-compliant queries exhibit lower helpfulness
while those that prioritize helpfulness compromise on safety. We refer to this
trade-off as the guardrail tax, analogous to the alignment tax. To address
this, we propose PrimeGuard, a novel ITG method that utilizes structured
control flow.
PrimeGuard routes requests to different self-instantiations of the LM with
varying instructions, leveraging its inherent instruction-following
capabilities and in-context learning. Our tuning-free approach dynamically
compiles system-designer guidelines for each query. We construct and release
safe-eval, a diverse red-team safety benchmark. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax
by (1) significantly increasing resistance to iterative jailbreak attacks and
(2) achieving state-of-the-art results in safety guardrailing while (3)
matching helpfulness scores of alignment-tuned models. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, outperforms all competing
baselines and overcomes the guardrail tax by improving the fraction of safe
responses from 61% to 97% and increasing average helpfulness scores from 4.17
to 4.29 on the largest models, while reducing attack success rate from 100% to
8%.
PrimeGuard implementation is available at
https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at
https://huggingface.co/datasets/dynamoai/safe_eval.Summary
AI-Generated Summary