Rainbow Teaming: Geração Aberta de Prompts Adversariais Diversificados
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
February 26, 2024
Autores: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) se tornam cada vez mais prevalentes em diversas aplicações do mundo real, compreender e aprimorar sua robustez em relação às entradas dos usuários é de extrema importância. Os métodos existentes para identificar prompts adversários tendem a se concentrar em domínios específicos, carecem de diversidade ou exigem anotações humanas extensas. Para abordar essas limitações, apresentamos o Rainbow Teaming, uma abordagem inovadora para produzir uma coleção diversificada de prompts adversários. O Rainbow Teaming enquadra a geração de prompts adversários como um problema de qualidade-diversidade e utiliza busca aberta para gerar prompts que são tanto eficazes quanto diversos. Ele pode revelar vulnerabilidades de um modelo em uma ampla gama de domínios, incluindo, neste artigo, segurança, resposta a perguntas e cibersegurança. Também demonstramos que o ajuste fino em dados sintéticos gerados pelo Rainbow Teaming melhora a segurança dos LLMs de última geração sem prejudicar suas capacidades gerais e utilidade, abrindo caminho para a autossuperação aberta.
English
As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.