RainbowPlus: Mejora de la Generación de Prompts Adversariales mediante Búsqueda Evolutiva de Calidad-Diversidad
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
April 21, 2025
Autores: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben capacidades notables, pero son susceptibles a indicaciones adversarias que explotan vulnerabilidades para producir resultados inseguros o sesgados. Los métodos existentes de red-teaming a menudo enfrentan desafíos de escalabilidad, requisitos intensivos en recursos o una diversidad limitada en las estrategias de ataque. Proponemos RainbowPlus, un novedoso marco de red-teaming basado en la computación evolutiva, que mejora la generación de indicaciones adversarias mediante una búsqueda de calidad-diversidad (QD, por sus siglas en inglés) adaptativa, extendiendo algoritmos evolutivos clásicos como MAP-Elites con innovaciones diseñadas específicamente para modelos de lenguaje. Al emplear un archivo de múltiples elementos para almacenar indicaciones diversas y de alta calidad, y una función de aptitud integral para evaluar múltiples indicaciones simultáneamente, RainbowPlus supera las limitaciones de los archivos de una sola indicación y las comparaciones por pares en métodos QD anteriores como Rainbow Teaming. Los experimentos que comparan RainbowPlus con métodos QD en seis conjuntos de datos de referencia y cuatro LLMs de código abierto demuestran una tasa de éxito de ataque (ASR, por sus siglas en inglés) superior y una diversidad (Diverse-Score aprox. 0.84) mayor, generando hasta 100 veces más indicaciones únicas (por ejemplo, 10,418 frente a 100 para Ministral-8B-Instruct-2410). Frente a nueve métodos de última generación en el conjunto de datos HarmBench con doce LLMs (diez de código abierto, dos de código cerrado), RainbowPlus logra un ASR promedio del 81.1%, superando a AutoDAN-Turbo en un 3.9%, y es 9 veces más rápido (1.45 frente a 13.50 horas). Nuestra implementación de código abierto fomenta avances adicionales en la seguridad de los LLMs, ofreciendo una herramienta escalable para la evaluación de vulnerabilidades. El código y los recursos están disponibles públicamente en https://github.com/knoveleng/rainbowplus, apoyando la reproducibilidad y futuras investigaciones en red-teaming de LLMs.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are
susceptible to adversarial prompts that exploit vulnerabilities to produce
unsafe or biased outputs. Existing red-teaming methods often face scalability
challenges, resource-intensive requirements, or limited diversity in attack
strategies. We propose RainbowPlus, a novel red-teaming framework rooted in
evolutionary computation, enhancing adversarial prompt generation through an
adaptive quality-diversity (QD) search that extends classical evolutionary
algorithms like MAP-Elites with innovations tailored for language models. By
employing a multi-element archive to store diverse high-quality prompts and a
comprehensive fitness function to evaluate multiple prompts concurrently,
RainbowPlus overcomes the constraints of single-prompt archives and pairwise
comparisons in prior QD methods like Rainbow Teaming. Experiments comparing
RainbowPlus to QD methods across six benchmark datasets and four open-source
LLMs demonstrate superior attack success rate (ASR) and diversity
(Diverse-Score approx 0.84), generating up to 100 times more unique prompts
(e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine
state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten
open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%,
surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours).
Our open-source implementation fosters further advancements in LLM safety,
offering a scalable tool for vulnerability assessment. Code and resources are
publicly available at https://github.com/knoveleng/rainbowplus, supporting
reproducibility and future research in LLM red-teaming.Summary
AI-Generated Summary