Rainbow Teaming: Открытая генерация разнообразных адверсарных запросов
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
February 26, 2024
Авторы: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) становятся все более распространенными в различных реальных приложениях, понимание и повышение их устойчивости к пользовательским запросам приобретает первостепенное значение. Существующие методы выявления вредоносных запросов (adversarial prompts) часто сосредоточены на узких областях, отличаются недостаточным разнообразием или требуют значительных объемов ручной разметки. Чтобы устранить эти ограничения, мы представляем Rainbow Teaming — новый подход для создания разнообразного набора вредоносных запросов. Rainbow Teaming рассматривает генерацию таких запросов как задачу оптимизации качества и разнообразия, используя открытый поиск для создания запросов, которые одновременно эффективны и разнообразны. Этот метод позволяет выявить уязвимости модели в широком спектре областей, включая, как показано в данной работе, безопасность, ответы на вопросы и кибербезопасность. Мы также демонстрируем, что дообучение на синтетических данных, сгенерированных с помощью Rainbow Teaming, повышает безопасность современных LLM, не ухудшая их общих возможностей и полезности, прокладывая путь к открытому самоулучшению.
English
As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.