SafeRoute: Selección Adaptativa de Modelos para Barreras de Seguridad Eficientes y Precisas en Modelos de Lenguaje a Gran Escala

Resumen

La implementación de modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real requiere modelos de seguridad robustos para detectar y bloquear solicitudes de usuarios potencialmente dañinas. Si bien los modelos de seguridad de gran tamaño logran un rendimiento sólido, su costo computacional es considerable. Para mitigar esto, se utilizan modelos más pequeños y destilados, pero a menudo tienen un rendimiento inferior en ejemplos "difíciles" donde el modelo más grande proporciona predicciones precisas. Observamos que muchas entradas pueden ser manejadas de manera confiable por el modelo más pequeño, mientras que solo una pequeña fracción requiere la capacidad del modelo más grande. Motivados por esto, proponemos SafeRoute, un enrutador binario que distingue ejemplos difíciles de los fáciles. Nuestro método aplica selectivamente el modelo de seguridad más grande a los datos que el enrutador considera difíciles, mejorando la eficiencia mientras se mantiene la precisión en comparación con el uso exclusivo del modelo de seguridad más grande. Los resultados experimentales en múltiples conjuntos de datos de referencia demuestran que nuestra selección de modelos adaptativa mejora significativamente el equilibrio entre el costo computacional y el rendimiento en seguridad, superando a las líneas base relevantes.

English

Deploying large language models (LLMs) in real-world applications requires robust safety guard models to detect and block harmful user prompts. While large safety guard models achieve strong performance, their computational cost is substantial. To mitigate this, smaller distilled models are used, but they often underperform on "hard" examples where the larger model provides accurate predictions. We observe that many inputs can be reliably handled by the smaller model, while only a small fraction require the larger model's capacity. Motivated by this, we propose SafeRoute, a binary router that distinguishes hard examples from easy ones. Our method selectively applies the larger safety guard model to the data that the router considers hard, improving efficiency while maintaining accuracy compared to solely using the larger safety guard model. Experimental results on multiple benchmark datasets demonstrate that our adaptive model selection significantly enhances the trade-off between computational cost and safety performance, outperforming relevant baselines.

SafeRoute: Selección Adaptativa de Modelos para Barreras de Seguridad Eficientes y Precisas en Modelos de Lenguaje a Gran Escala

SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Resumen

Support