Rainbow Teaming: Generación Abierta de Prompts Adversarios Diversos
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts
February 26, 2024
Autores: Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se vuelven cada vez más prevalentes en muchas aplicaciones del mundo real, comprender y mejorar su robustez frente a las entradas de los usuarios es de suma importancia. Los métodos existentes para identificar indicaciones adversas tienden a centrarse en dominios específicos, carecen de diversidad o requieren anotaciones humanas extensas. Para abordar estas limitaciones, presentamos Rainbow Teaming, un enfoque novedoso para producir una colección diversa de indicaciones adversas. Rainbow Teaming plantea la generación de indicaciones adversas como un problema de calidad-diversidad y utiliza búsqueda abierta para generar indicaciones que sean tanto efectivas como diversas. Puede descubrir vulnerabilidades de un modelo en una amplia gama de dominios, incluyendo, en este trabajo, seguridad, respuesta a preguntas y ciberseguridad. También demostramos que el ajuste fino con datos sintéticos generados por Rainbow Teaming mejora la seguridad de los LLMs de vanguardia sin perjudicar sus capacidades generales y su utilidad, allanando el camino hacia la automejora abierta.
English
As large language models (LLMs) become increasingly prevalent across many
real-world applications, understanding and enhancing their robustness to user
inputs is of paramount importance. Existing methods for identifying adversarial
prompts tend to focus on specific domains, lack diversity, or require extensive
human annotations. To address these limitations, we present Rainbow Teaming, a
novel approach for producing a diverse collection of adversarial prompts.
Rainbow Teaming casts adversarial prompt generation as a quality-diversity
problem, and uses open-ended search to generate prompts that are both effective
and diverse. It can uncover a model's vulnerabilities across a broad range of
domains including, in this paper, safety, question answering, and
cybersecurity. We also demonstrate that fine-tuning on synthetic data generated
by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting
their general capabilities and helpfulness, paving the path to open-ended
self-improvement.