ChatPaper.aiChatPaper

Rainbow Teaming: Generazione Aperta di Prompt Avversari Diversificati

Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

February 26, 2024
Autori: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano sempre più diffusi in molte applicazioni del mondo reale, comprendere e migliorare la loro robustezza agli input degli utenti è di fondamentale importanza. I metodi esistenti per identificare prompt avversari tendono a concentrarsi su domini specifici, mancano di diversità o richiedono annotazioni umane estese. Per affrontare queste limitazioni, presentiamo Rainbow Teaming, un approccio innovativo per produrre una raccolta diversificata di prompt avversari. Rainbow Teaming inquadra la generazione di prompt avversari come un problema di qualità-diversità e utilizza una ricerca aperta per generare prompt che siano sia efficaci che diversificati. Questo metodo può scoprire le vulnerabilità di un modello in un'ampia gamma di domini, tra cui, in questo articolo, sicurezza, risposta a domande e cybersecurity. Dimostriamo inoltre che il fine-tuning su dati sintetici generati da Rainbow Teaming migliora la sicurezza dei LLM all'avanguardia senza compromettere le loro capacità generali e l'utilità, aprendo la strada a un miglioramento continuo e aperto.
English
As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to user inputs is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem, and uses open-ended search to generate prompts that are both effective and diverse. It can uncover a model's vulnerabilities across a broad range of domains including, in this paper, safety, question answering, and cybersecurity. We also demonstrate that fine-tuning on synthetic data generated by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting their general capabilities and helpfulness, paving the path to open-ended self-improvement.
PDF180December 15, 2024