SafeRoute : Sélection adaptative de modèles pour des garde-fous de sécurité efficaces et précis dans les grands modèles de langage
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models
February 18, 2025
Auteurs: Seanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Résumé
Le déploiement de grands modèles de langage (LLMs) dans des applications réelles nécessite des modèles de sécurité robustes pour détecter et bloquer les requêtes utilisateurs nuisibles. Bien que les grands modèles de sécurité offrent des performances solides, leur coût computationnel est considérable. Pour atténuer cela, des modèles plus petits et distillés sont utilisés, mais ils sous-performent souvent sur les exemples "difficiles" où le modèle plus grand fournit des prédictions précises. Nous observons que de nombreuses entrées peuvent être traitées de manière fiable par le modèle plus petit, tandis qu'une petite fraction nécessite la capacité du modèle plus grand. Motivés par cette observation, nous proposons SafeRoute, un routeur binaire qui distingue les exemples difficiles des exemples faciles. Notre méthode applique sélectivement le modèle de sécurité plus grand aux données que le routeur considère comme difficiles, améliorant ainsi l'efficacité tout en maintenant la précision par rapport à l'utilisation exclusive du modèle de sécurité plus grand. Les résultats expérimentaux sur plusieurs ensembles de données de référence démontrent que notre sélection de modèle adaptative améliore significativement le compromis entre le coût computationnel et les performances de sécurité, surpassant les bases de référence pertinentes.
English
Deploying large language models (LLMs) in real-world applications requires
robust safety guard models to detect and block harmful user prompts. While
large safety guard models achieve strong performance, their computational cost
is substantial. To mitigate this, smaller distilled models are used, but they
often underperform on "hard" examples where the larger model provides accurate
predictions. We observe that many inputs can be reliably handled by the smaller
model, while only a small fraction require the larger model's capacity.
Motivated by this, we propose SafeRoute, a binary router that distinguishes
hard examples from easy ones. Our method selectively applies the larger safety
guard model to the data that the router considers hard, improving efficiency
while maintaining accuracy compared to solely using the larger safety guard
model. Experimental results on multiple benchmark datasets demonstrate that our
adaptive model selection significantly enhances the trade-off between
computational cost and safety performance, outperforming relevant baselines.Summary
AI-Generated Summary