SafeRoute: Адаптивный выбор моделей для эффективного и точного обеспечения защитных механизмов безопасности в крупных языковых моделях

Аннотация

Развертывание больших языковых моделей (LLMs) в реальных приложениях требует надежных моделей-защитников для обнаружения и блокировки вредоносных запросов пользователей. Хотя крупные модели-защитники демонстрируют высокую производительность, их вычислительная стоимость значительна. Для снижения этой нагрузки используются меньшие дистиллированные модели, но они часто уступают в производительности на "сложных" примерах, где большая модель обеспечивает точные предсказания. Мы наблюдаем, что многие входные данные могут быть надежно обработаны меньшей моделью, в то время как лишь небольшая часть требует мощности большей модели. Вдохновленные этим, мы предлагаем SafeRoute — бинарный маршрутизатор, который отличает сложные примеры от простых. Наш метод избирательно применяет большую модель-защитник к данным, которые маршрутизатор считает сложными, повышая эффективность при сохранении точности по сравнению с использованием только большей модели-защитника. Экспериментальные результаты на нескольких эталонных наборах данных показывают, что наше адаптивное выбор моделей значительно улучшает баланс между вычислительной стоимостью и производительностью в области безопасности, превосходя соответствующие базовые подходы.

English

Deploying large language models (LLMs) in real-world applications requires robust safety guard models to detect and block harmful user prompts. While large safety guard models achieve strong performance, their computational cost is substantial. To mitigate this, smaller distilled models are used, but they often underperform on "hard" examples where the larger model provides accurate predictions. We observe that many inputs can be reliably handled by the smaller model, while only a small fraction require the larger model's capacity. Motivated by this, we propose SafeRoute, a binary router that distinguishes hard examples from easy ones. Our method selectively applies the larger safety guard model to the data that the router considers hard, improving efficiency while maintaining accuracy compared to solely using the larger safety guard model. Experimental results on multiple benchmark datasets demonstrate that our adaptive model selection significantly enhances the trade-off between computational cost and safety performance, outperforming relevant baselines.

SafeRoute: Адаптивный выбор моделей для эффективного и точного обеспечения защитных механизмов безопасности в крупных языковых моделях

SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Аннотация

Support