ChatPaper.aiChatPaper

Rainbow Teaming: Открытая генерация разнообразных адверсарных запросов

Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

February 26, 2024
Авторы: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI

Аннотация

По мере того как крупные языковые модели (LLM) становятся все более распространенными в различных реальных приложениях, понимание и повышение их устойчивости к пользовательским запросам приобретает первостепенное значение. Существующие методы выявления вредоносных запросов (adversarial prompts) часто сосредоточены на узких областях, отличаются недостаточным разнообразием или требуют значительных объемов ручной разметки. Чтобы устранить эти ограничения, мы представляем Rainbow Teaming — новый подход для создания разнообразного набора вредоносных запросов. Rainbow Teaming рассматривает генерацию таких запросов как задачу оптимизации качества и разнообразия, используя открытый поиск для создания запросов, которые одновременно эффективны и разнообразны. Этот метод позволяет выявить уязвимости модели в широком спектре областей, включая, как показано в данной работе, безопасность, ответы на вопросы и кибербезопасность. Мы также демонстрируем, что дообучение на синтетических данных, сгенерированных с помощью Rainbow Teaming, повышает безопасность современных LLM, не ухудшая их общих возможностей и полезности, прокладывая путь к открытому самоулучшению.
English
As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to user inputs is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem, and uses open-ended search to generate prompts that are both effective and diverse. It can uncover a model's vulnerabilities across a broad range of domains including, in this paper, safety, question answering, and cybersecurity. We also demonstrate that fine-tuning on synthetic data generated by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting their general capabilities and helpfulness, paving the path to open-ended self-improvement.
PDF180December 15, 2024