ChatPaper.aiChatPaper

Rainbow Teaming: Open-Ended Generatie van Diverse Adversariële Prompts

Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

February 26, 2024
Auteurs: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI

Samenvatting

Naarmate grote taalmodellen (LLMs) steeds vaker worden ingezet in veel real-world toepassingen, is het begrijpen en verbeteren van hun robuustheid tegenover gebruikersinvoer van cruciaal belang. Bestaande methoden voor het identificeren van adversariële prompts richten zich vaak op specifieke domeinen, missen diversiteit, of vereisen uitgebreide menselijke annotaties. Om deze beperkingen aan te pakken, presenteren we Rainbow Teaming, een nieuwe aanpak voor het genereren van een diverse verzameling adversariële prompts. Rainbow Teaming benadert de generatie van adversariële prompts als een kwaliteit-diversiteit probleem, en maakt gebruik van open-ended zoekmethoden om prompts te genereren die zowel effectief als divers zijn. Het kan kwetsbaarheden van een model blootleggen over een breed scala aan domeinen, waaronder in dit artikel veiligheid, vraagbeantwoording en cybersecurity. We laten ook zien dat fine-tuning op synthetische data gegenereerd door Rainbow Teaming de veiligheid van state-of-the-art LLMs verbetert zonder hun algemene mogelijkheden en behulpzaamheid aan te tasten, wat de weg vrijmaakt voor open-ended zelfverbetering.
English
As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to user inputs is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem, and uses open-ended search to generate prompts that are both effective and diverse. It can uncover a model's vulnerabilities across a broad range of domains including, in this paper, safety, question answering, and cybersecurity. We also demonstrate that fine-tuning on synthetic data generated by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting their general capabilities and helpfulness, paving the path to open-ended self-improvement.
PDF180December 15, 2024