MART: Повышение безопасности языковых моделей с помощью многоэтапного автоматического тестирования на уязвимости
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
November 13, 2023
Авторы: Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao
cs.AI
Аннотация
Красное тестирование (red-teaming) — это распространённая практика для снижения небезопасного поведения в больших языковых моделях (LLM), которая включает тщательную оценку LLM для выявления потенциальных уязвимостей и их устранение с помощью ответственных и точных ответов. Хотя ручное красное тестирование эффективно, оно требует значительных затрат, а существующие автоматизированные методы обычно выявляют риски безопасности, не устраняя их. В данной статье мы предлагаем метод многораундового автоматического красного тестирования (MART), который сочетает автоматическое создание адверсарных запросов и генерацию безопасных ответов, значительно повышая масштабируемость красного тестирования и безопасность целевой LLM. В частности, адверсарная LLM и целевая LLM взаимодействуют друг с другом итеративно: адверсарная LLM стремится создавать сложные запросы, которые вызывают небезопасные ответы у целевой LLM, в то время как целевая LLM дообучается на данных, согласованных с безопасностью, на основе этих адверсарных запросов. В каждом раунде адверсарная LLM разрабатывает более эффективные атаки на обновлённую целевую LLM, а целевая LLM также улучшается за счёт дообучения на безопасность. На бенчмарках адверсарных запросов уровень нарушений LLM с ограниченной настройкой на безопасность снижается до 84,7% после 4 раундов MART, достигая сопоставимых результатов с LLM, обученными на обширных адверсарных запросах. Примечательно, что полезность модели на неадверсарных запросах остаётся стабильной на протяжении итераций, что указывает на сохранение высокой производительности целевой LLM в выполнении инструкций.
English
Red-teaming is a common practice for mitigating unsafe behaviors in Large
Language Models (LLMs), which involves thoroughly assessing LLMs to identify
potential flaws and addressing them with responsible and accurate responses.
While effective, manual red-teaming is costly, and existing automatic
red-teaming typically discovers safety risks without addressing them. In this
paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which
incorporates both automatic adversarial prompt writing and safe response
generation, significantly increasing red-teaming scalability and the safety of
the target LLM. Specifically, an adversarial LLM and a target LLM interplay
with each other in an iterative manner, where the adversarial LLM aims to
generate challenging prompts that elicit unsafe responses from the target LLM,
while the target LLM is fine-tuned with safety aligned data on these
adversarial prompts. In each round, the adversarial LLM crafts better attacks
on the updated target LLM, while the target LLM also improves itself through
safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an
LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART,
achieving comparable performance to LLMs with extensive adversarial prompt
writing. Notably, model helpfulness on non-adversarial prompts remains stable
throughout iterations, indicating the target LLM maintains strong performance
on instruction following.