SafeRoute : Sélection adaptative de modèles pour des garde-fous de sécurité efficaces et précis dans les grands modèles de langage

papers.abstract

Le déploiement de grands modèles de langage (LLMs) dans des applications réelles nécessite des modèles de sécurité robustes pour détecter et bloquer les requêtes utilisateurs nuisibles. Bien que les grands modèles de sécurité offrent des performances solides, leur coût computationnel est considérable. Pour atténuer cela, des modèles plus petits et distillés sont utilisés, mais ils sous-performent souvent sur les exemples "difficiles" où le modèle plus grand fournit des prédictions précises. Nous observons que de nombreuses entrées peuvent être traitées de manière fiable par le modèle plus petit, tandis qu'une petite fraction nécessite la capacité du modèle plus grand. Motivés par cette observation, nous proposons SafeRoute, un routeur binaire qui distingue les exemples difficiles des exemples faciles. Notre méthode applique sélectivement le modèle de sécurité plus grand aux données que le routeur considère comme difficiles, améliorant ainsi l'efficacité tout en maintenant la précision par rapport à l'utilisation exclusive du modèle de sécurité plus grand. Les résultats expérimentaux sur plusieurs ensembles de données de référence démontrent que notre sélection de modèle adaptative améliore significativement le compromis entre le coût computationnel et les performances de sécurité, surpassant les bases de référence pertinentes.

English

Deploying large language models (LLMs) in real-world applications requires robust safety guard models to detect and block harmful user prompts. While large safety guard models achieve strong performance, their computational cost is substantial. To mitigate this, smaller distilled models are used, but they often underperform on "hard" examples where the larger model provides accurate predictions. We observe that many inputs can be reliably handled by the smaller model, while only a small fraction require the larger model's capacity. Motivated by this, we propose SafeRoute, a binary router that distinguishes hard examples from easy ones. Our method selectively applies the larger safety guard model to the data that the router considers hard, improving efficiency while maintaining accuracy compared to solely using the larger safety guard model. Experimental results on multiple benchmark datasets demonstrate that our adaptive model selection significantly enhances the trade-off between computational cost and safety performance, outperforming relevant baselines.

SafeRoute : Sélection adaptative de modèles pour des garde-fous de sécurité efficaces et précis dans les grands modèles de langage

SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

papers.abstract

Support