RainbowPlus: Aprimorando a Geração de Prompts Adversários por meio de Busca Evolutiva de Qualidade e Diversidade
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
April 21, 2025
Autores: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades impressionantes, mas são suscetíveis a prompts adversariais que exploram vulnerabilidades para produzir saídas inseguras ou tendenciosas. Os métodos existentes de red-teaming frequentemente enfrentam desafios de escalabilidade, requisitos intensivos de recursos ou diversidade limitada nas estratégias de ataque. Propomos o RainbowPlus, uma nova estrutura de red-teaming baseada em computação evolutiva, que aprimora a geração de prompts adversariais por meio de uma busca adaptativa de qualidade-diversidade (QD) que estende algoritmos evolutivos clássicos como o MAP-Elites com inovações específicas para modelos de linguagem. Ao empregar um arquivo de múltiplos elementos para armazenar prompts diversos e de alta qualidade e uma função de aptidão abrangente para avaliar múltiplos prompts simultaneamente, o RainbowPlus supera as limitações de arquivos de prompt único e comparações pareadas em métodos QD anteriores, como o Rainbow Teaming. Experimentos comparando o RainbowPlus a métodos QD em seis conjuntos de dados de referência e quatro LLMs de código aberto demonstram uma taxa de sucesso de ataque (ASR) superior e diversidade (Diverse-Score aprox. 0,84), gerando até 100 vezes mais prompts únicos (por exemplo, 10.418 vs. 100 para o Ministral-8B-Instruct-2410). Contra nove métodos state-of-the-art no conjunto de dados HarmBench com doze LLMs (dez de código aberto, dois de código fechado), o RainbowPlus alcança uma ASR média de 81,1%, superando o AutoDAN-Turbo em 3,9% e sendo 9 vezes mais rápido (1,45 vs. 13,50 horas). Nossa implementação de código aberto promove avanços na segurança de LLMs, oferecendo uma ferramenta escalável para avaliação de vulnerabilidades. Código e recursos estão publicamente disponíveis em https://github.com/knoveleng/rainbowplus, apoiando a reprodutibilidade e pesquisas futuras em red-teaming de LLMs.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are
susceptible to adversarial prompts that exploit vulnerabilities to produce
unsafe or biased outputs. Existing red-teaming methods often face scalability
challenges, resource-intensive requirements, or limited diversity in attack
strategies. We propose RainbowPlus, a novel red-teaming framework rooted in
evolutionary computation, enhancing adversarial prompt generation through an
adaptive quality-diversity (QD) search that extends classical evolutionary
algorithms like MAP-Elites with innovations tailored for language models. By
employing a multi-element archive to store diverse high-quality prompts and a
comprehensive fitness function to evaluate multiple prompts concurrently,
RainbowPlus overcomes the constraints of single-prompt archives and pairwise
comparisons in prior QD methods like Rainbow Teaming. Experiments comparing
RainbowPlus to QD methods across six benchmark datasets and four open-source
LLMs demonstrate superior attack success rate (ASR) and diversity
(Diverse-Score approx 0.84), generating up to 100 times more unique prompts
(e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine
state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten
open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%,
surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours).
Our open-source implementation fosters further advancements in LLM safety,
offering a scalable tool for vulnerability assessment. Code and resources are
publicly available at https://github.com/knoveleng/rainbowplus, supporting
reproducibility and future research in LLM red-teaming.Summary
AI-Generated Summary