SafeRoute: Адаптивный выбор моделей для эффективного и точного обеспечения защитных механизмов безопасности в крупных языковых моделях
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models
February 18, 2025
Авторы: Seanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Аннотация
Развертывание больших языковых моделей (LLMs) в реальных приложениях требует надежных моделей-защитников для обнаружения и блокировки вредоносных запросов пользователей. Хотя крупные модели-защитники демонстрируют высокую производительность, их вычислительная стоимость значительна. Для снижения этой нагрузки используются меньшие дистиллированные модели, но они часто уступают в производительности на "сложных" примерах, где большая модель обеспечивает точные предсказания. Мы наблюдаем, что многие входные данные могут быть надежно обработаны меньшей моделью, в то время как лишь небольшая часть требует мощности большей модели. Вдохновленные этим, мы предлагаем SafeRoute — бинарный маршрутизатор, который отличает сложные примеры от простых. Наш метод избирательно применяет большую модель-защитник к данным, которые маршрутизатор считает сложными, повышая эффективность при сохранении точности по сравнению с использованием только большей модели-защитника. Экспериментальные результаты на нескольких эталонных наборах данных показывают, что наше адаптивное выбор моделей значительно улучшает баланс между вычислительной стоимостью и производительностью в области безопасности, превосходя соответствующие базовые подходы.
English
Deploying large language models (LLMs) in real-world applications requires
robust safety guard models to detect and block harmful user prompts. While
large safety guard models achieve strong performance, their computational cost
is substantial. To mitigate this, smaller distilled models are used, but they
often underperform on "hard" examples where the larger model provides accurate
predictions. We observe that many inputs can be reliably handled by the smaller
model, while only a small fraction require the larger model's capacity.
Motivated by this, we propose SafeRoute, a binary router that distinguishes
hard examples from easy ones. Our method selectively applies the larger safety
guard model to the data that the router considers hard, improving efficiency
while maintaining accuracy compared to solely using the larger safety guard
model. Experimental results on multiple benchmark datasets demonstrate that our
adaptive model selection significantly enhances the trade-off between
computational cost and safety performance, outperforming relevant baselines.Summary
AI-Generated Summary