Rainbow Teaming: Open-Ended Generatie van Diverse Adversariële Prompts
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
February 26, 2024
Auteurs: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLMs) steeds vaker worden ingezet in veel
real-world toepassingen, is het begrijpen en verbeteren van hun robuustheid tegenover gebruikersinvoer
van cruciaal belang. Bestaande methoden voor het identificeren van adversariële prompts
richten zich vaak op specifieke domeinen, missen diversiteit, of vereisen uitgebreide
menselijke annotaties. Om deze beperkingen aan te pakken, presenteren we Rainbow Teaming, een
nieuwe aanpak voor het genereren van een diverse verzameling adversariële prompts.
Rainbow Teaming benadert de generatie van adversariële prompts als een kwaliteit-diversiteit
probleem, en maakt gebruik van open-ended zoekmethoden om prompts te genereren die zowel effectief
als divers zijn. Het kan kwetsbaarheden van een model blootleggen over een breed scala aan
domeinen, waaronder in dit artikel veiligheid, vraagbeantwoording en
cybersecurity. We laten ook zien dat fine-tuning op synthetische data gegenereerd door
Rainbow Teaming de veiligheid van state-of-the-art LLMs verbetert zonder hun algemene
mogelijkheden en behulpzaamheid aan te tasten, wat de weg vrijmaakt voor open-ended
zelfverbetering.
English
As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.