Rainbow Teaming : Génération ouverte de prompts adversaires diversifiés
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
February 26, 2024
Auteurs: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) deviennent de plus en plus répandus dans de nombreuses applications du monde réel, comprendre et améliorer leur robustesse face aux entrées utilisateurs est d'une importance capitale. Les méthodes existantes pour identifier les invites adverses tendent à se concentrer sur des domaines spécifiques, manquent de diversité ou nécessitent des annotations humaines approfondies. Pour pallier ces limitations, nous présentons Rainbow Teaming, une nouvelle approche pour produire une collection diversifiée d'invites adverses. Rainbow Teaming aborde la génération d'invites adverses comme un problème de qualité-diversité, et utilise une recherche ouverte pour générer des invites à la fois efficaces et variées. Cette méthode peut révéler les vulnérabilités d'un modèle dans un large éventail de domaines, incluant, dans cet article, la sécurité, la réponse aux questions et la cybersécurité. Nous démontrons également que l'affinage sur des données synthétiques générées par Rainbow Teaming améliore la sécurité des LLM de pointe sans compromettre leurs capacités générales et leur utilité, ouvrant la voie à une amélioration continue ouverte.
English
As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.