SafeRoute: Selección Adaptativa de Modelos para Barreras de Seguridad Eficientes y Precisas en Modelos de Lenguaje a Gran Escala
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models
February 18, 2025
Autores: Seanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Resumen
La implementación de modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real requiere modelos de seguridad robustos para detectar y bloquear solicitudes de usuarios potencialmente dañinas. Si bien los modelos de seguridad de gran tamaño logran un rendimiento sólido, su costo computacional es considerable. Para mitigar esto, se utilizan modelos más pequeños y destilados, pero a menudo tienen un rendimiento inferior en ejemplos "difíciles" donde el modelo más grande proporciona predicciones precisas. Observamos que muchas entradas pueden ser manejadas de manera confiable por el modelo más pequeño, mientras que solo una pequeña fracción requiere la capacidad del modelo más grande. Motivados por esto, proponemos SafeRoute, un enrutador binario que distingue ejemplos difíciles de los fáciles. Nuestro método aplica selectivamente el modelo de seguridad más grande a los datos que el enrutador considera difíciles, mejorando la eficiencia mientras se mantiene la precisión en comparación con el uso exclusivo del modelo de seguridad más grande. Los resultados experimentales en múltiples conjuntos de datos de referencia demuestran que nuestra selección de modelos adaptativa mejora significativamente el equilibrio entre el costo computacional y el rendimiento en seguridad, superando a las líneas base relevantes.
English
Deploying large language models (LLMs) in real-world applications requires
robust safety guard models to detect and block harmful user prompts. While
large safety guard models achieve strong performance, their computational cost
is substantial. To mitigate this, smaller distilled models are used, but they
often underperform on "hard" examples where the larger model provides accurate
predictions. We observe that many inputs can be reliably handled by the smaller
model, while only a small fraction require the larger model's capacity.
Motivated by this, we propose SafeRoute, a binary router that distinguishes
hard examples from easy ones. Our method selectively applies the larger safety
guard model to the data that the router considers hard, improving efficiency
while maintaining accuracy compared to solely using the larger safety guard
model. Experimental results on multiple benchmark datasets demonstrate that our
adaptive model selection significantly enhances the trade-off between
computational cost and safety performance, outperforming relevant baselines.Summary
AI-Generated Summary