PrimeGuard : Des modèles de langage sûrs et utiles grâce à un routage sans ajustement

papers.abstract

Le déploiement de modèles de langage (LMs) nécessite que les sorties soient à la fois de haute qualité et conformes aux directives de sécurité. Bien que les garde-fous au moment de l'inférence (Inference-Time Guardrails, ITG) proposent des solutions qui ajustent les distributions de sortie des modèles vers la conformité, nous constatons que les méthodes actuelles peinent à équilibrer sécurité et utilité. Les méthodes ITG qui traitent de manière sûre les requêtes non conformes montrent une utilité réduite, tandis que celles qui privilégient l'utilité compromettent la sécurité. Nous qualifions ce compromis de "taxe de garde-fou", analogue à la "taxe d'alignement". Pour y remédier, nous proposons PrimeGuard, une nouvelle méthode ITG qui utilise un flux de contrôle structuré. PrimeGuide achemine les requêtes vers différentes auto-instantiations du LM avec des instructions variées, en exploitant ses capacités inhérentes à suivre des instructions et son apprentissage en contexte. Notre approche, sans nécessiter de réglage, compile dynamiquement les directives du concepteur du système pour chaque requête. Nous construisons et publions safe-eval, un benchmark de sécurité diversifié pour les équipes rouges. Des évaluations approfondies démontrent que PrimeGuard, sans réglage fin, surmonte la taxe de garde-fou en (1) augmentant significativement la résistance aux attaques itératives de contournement et (2) obtenant des résultats de pointe en matière de garde-fou de sécurité tout en (3) égalant les scores d'utilité des modèles ajustés pour l'alignement. Des évaluations approfondies montrent que PrimeGuard, sans réglage fin, surpasse toutes les lignes de base concurrentes et surmonte la taxe de garde-fou en améliorant la fraction de réponses sûres de 61% à 97% et en augmentant les scores d'utilité moyens de 4,17 à 4,29 sur les plus grands modèles, tout en réduisant le taux de réussite des attaques de 100% à 8%. L'implémentation de PrimeGuard est disponible à l'adresse https://github.com/dynamofl/PrimeGuard et le jeu de données safe-eval est disponible à l'adresse https://huggingface.co/datasets/dynamoai/safe_eval.

English

Deploying language models (LMs) necessitates outputs to be both high-quality and compliant with safety guidelines. Although Inference-Time Guardrails (ITG) offer solutions that shift model output distributions towards compliance, we find that current methods struggle in balancing safety with helpfulness. ITG Methods that safely address non-compliant queries exhibit lower helpfulness while those that prioritize helpfulness compromise on safety. We refer to this trade-off as the guardrail tax, analogous to the alignment tax. To address this, we propose PrimeGuard, a novel ITG method that utilizes structured control flow. PrimeGuard routes requests to different self-instantiations of the LM with varying instructions, leveraging its inherent instruction-following capabilities and in-context learning. Our tuning-free approach dynamically compiles system-designer guidelines for each query. We construct and release safe-eval, a diverse red-team safety benchmark. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax by (1) significantly increasing resistance to iterative jailbreak attacks and (2) achieving state-of-the-art results in safety guardrailing while (3) matching helpfulness scores of alignment-tuned models. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, outperforms all competing baselines and overcomes the guardrail tax by improving the fraction of safe responses from 61% to 97% and increasing average helpfulness scores from 4.17 to 4.29 on the largest models, while reducing attack success rate from 100% to 8%. PrimeGuard implementation is available at https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at https://huggingface.co/datasets/dynamoai/safe_eval.

PrimeGuard : Des modèles de langage sûrs et utiles grâce à un routage sans ajustement

PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing

papers.abstract

Support