PrimeGuard: Безопасные и полезные LLM через маршрутизацию без настройки
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
July 23, 2024
Авторы: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
cs.AI
Аннотация
Для развертывания языковых моделей (LMs) необходимо, чтобы выходные данные были высокого качества и соответствовали рекомендациям по безопасности. Хотя механизмы контроля во время вывода (ITG) предлагают решения, направленные на смещение распределений выходных данных модели в сторону соответствия, мы обнаружили, что текущие методы испытывают затруднения в балансировке безопасности и полезности. Методы ITG, безопасно обрабатывающие несоответствующие запросы, проявляют более низкую полезность, в то время как те, которые приоритизируют полезность, жертвуют безопасностью. Мы называем этот компромисс "налог защитного барьера", аналогичный налогу на выравнивание. Для решения этой проблемы мы предлагаем PrimeGuard, новый метод ITG, использующий структурированный контрольный поток.
PrimeGuard направляет запросы к различным самовоспроизведениям LM с различными инструкциями, используя его врожденные способности следовать инструкциям и обучение в контексте. Наш подход без настройки динамически компилирует рекомендации системного проектировщика для каждого запроса. Мы создаем и выпускаем safe-eval, разнообразный бенчмарк безопасности красной команды. Обширные оценки показывают, что PrimeGuard, без дополнительной настройки, преодолевает налог защитного барьера, увеличивая устойчивость к итеративным атакам на проникновение и достигая передовых результатов в обеспечении безопасности, сохраняя при этом оценки полезности, сопоставимые с моделями, настроенными на выравнивание. Обширные оценки показывают, что PrimeGuard, без дополнительной настройки, превосходит все конкурирующие базовые уровни и преодолевает налог защитного барьера, улучшая долю безопасных ответов с 61% до 97% и увеличивая средние оценки полезности с 4.17 до 4.29 для крупных моделей, снижая при этом уровень успешности атак с 100% до 8%.
Реализация PrimeGuard доступна по адресу https://github.com/dynamofl/PrimeGuard, а набор данных safe-eval доступен по адресу https://huggingface.co/datasets/dynamoai/safe_eval.
English
Deploying language models (LMs) necessitates outputs to be both high-quality
and compliant with safety guidelines. Although Inference-Time Guardrails (ITG)
offer solutions that shift model output distributions towards compliance, we
find that current methods struggle in balancing safety with helpfulness. ITG
Methods that safely address non-compliant queries exhibit lower helpfulness
while those that prioritize helpfulness compromise on safety. We refer to this
trade-off as the guardrail tax, analogous to the alignment tax. To address
this, we propose PrimeGuard, a novel ITG method that utilizes structured
control flow.
PrimeGuard routes requests to different self-instantiations of the LM with
varying instructions, leveraging its inherent instruction-following
capabilities and in-context learning. Our tuning-free approach dynamically
compiles system-designer guidelines for each query. We construct and release
safe-eval, a diverse red-team safety benchmark. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax
by (1) significantly increasing resistance to iterative jailbreak attacks and
(2) achieving state-of-the-art results in safety guardrailing while (3)
matching helpfulness scores of alignment-tuned models. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, outperforms all competing
baselines and overcomes the guardrail tax by improving the fraction of safe
responses from 61% to 97% and increasing average helpfulness scores from 4.17
to 4.29 on the largest models, while reducing attack success rate from 100% to
8%.
PrimeGuard implementation is available at
https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at
https://huggingface.co/datasets/dynamoai/safe_eval.Summary
AI-Generated Summary