Rainbow Teaming: Offene Erzeugung vielfältiger adverser Eingabeaufforderungen
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
February 26, 2024
Autoren: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI
Zusammenfassung
Da große Sprachmodelle (LLMs) in immer mehr realen Anwendungen verbreitet sind, ist das Verständnis und die Verbesserung ihrer Robustheit gegenüber Benutzereingaben von entscheidender Bedeutung. Bestehende Methoden zur Identifizierung von adversarischen Prompts konzentrieren sich oft auf spezifische Domänen, mangeln an Diversität oder erfordern umfangreiche menschliche Annotationen. Um diese Einschränkungen zu überwinden, stellen wir Rainbow Teaming vor, einen neuartigen Ansatz zur Erzeugung einer vielfältigen Sammlung von adversarischen Prompts. Rainbow Teaming betrachtet die Generierung von adversarischen Prompts als ein Qualitäts-Diversitäts-Problem und nutzt eine offene Suche, um Prompts zu erzeugen, die sowohl effektiv als auch divers sind. Es kann Schwachstellen eines Modells in einer breiten Palette von Domänen aufdecken, darunter in dieser Arbeit Sicherheit, Fragebeantwortung und Cybersicherheit. Wir zeigen außerdem, dass das Feinabstimmen auf synthetischen Daten, die von Rainbow Teaming generiert wurden, die Sicherheit von state-of-the-art LLMs verbessert, ohne deren allgemeine Fähigkeiten und Hilfsbereitschaft zu beeinträchtigen, und ebnet so den Weg für eine offene Selbstverbesserung.
English
As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.