RainbowPlus: Miglioramento della Generazione di Prompt Avversari tramite Ricerca Evolutiva di Qualità e Diversità
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
April 21, 2025
Autori: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Abstract
I Large Language Models (LLMs) dimostrano capacità notevoli ma sono suscettibili a prompt avversari che sfruttano vulnerabilità per produrre output non sicuri o distorti. I metodi esistenti di red-teaming spesso affrontano sfide di scalabilità, requisiti ad alta intensità di risorse o una diversità limitata nelle strategie di attacco. Proponiamo RainbowPlus, un nuovo framework di red-teaming basato su calcolo evolutivo, che migliora la generazione di prompt avversari attraverso una ricerca adattiva di qualità-diversità (QD) che estende algoritmi evolutivi classici come MAP-Elites con innovazioni specifiche per i modelli linguistici. Utilizzando un archivio multi-elemento per memorizzare prompt di alta qualità e diversificati e una funzione di fitness completa per valutare più prompt contemporaneamente, RainbowPlus supera i limiti degli archivi a singolo prompt e dei confronti a coppie nei metodi QD precedenti come Rainbow Teaming. Esperimenti che confrontano RainbowPlus con metodi QD su sei dataset di benchmark e quattro LLM open-source dimostrano un tasso di successo degli attacchi (ASR) e una diversità (Diverse-Score circa 0,84) superiori, generando fino a 100 volte più prompt unici (ad esempio, 10.418 contro 100 per Ministral-8B-Instruct-2410). Contro nove metodi all'avanguardia sul dataset HarmBench con dodici LLM (dieci open-source, due closed-source), RainbowPlus raggiunge un ASR medio dell'81,1%, superando AutoDAN-Turbo del 3,9%, ed è 9 volte più veloce (1,45 contro 13,50 ore). La nostra implementazione open-source favorisce ulteriori progressi nella sicurezza degli LLM, offrendo uno strumento scalabile per la valutazione delle vulnerabilità. Codice e risorse sono pubblicamente disponibili su https://github.com/knoveleng/rainbowplus, supportando la riproducibilità e la ricerca futura nel red-teaming degli LLM.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are
susceptible to adversarial prompts that exploit vulnerabilities to produce
unsafe or biased outputs. Existing red-teaming methods often face scalability
challenges, resource-intensive requirements, or limited diversity in attack
strategies. We propose RainbowPlus, a novel red-teaming framework rooted in
evolutionary computation, enhancing adversarial prompt generation through an
adaptive quality-diversity (QD) search that extends classical evolutionary
algorithms like MAP-Elites with innovations tailored for language models. By
employing a multi-element archive to store diverse high-quality prompts and a
comprehensive fitness function to evaluate multiple prompts concurrently,
RainbowPlus overcomes the constraints of single-prompt archives and pairwise
comparisons in prior QD methods like Rainbow Teaming. Experiments comparing
RainbowPlus to QD methods across six benchmark datasets and four open-source
LLMs demonstrate superior attack success rate (ASR) and diversity
(Diverse-Score approx 0.84), generating up to 100 times more unique prompts
(e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine
state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten
open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%,
surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours).
Our open-source implementation fosters further advancements in LLM safety,
offering a scalable tool for vulnerability assessment. Code and resources are
publicly available at https://github.com/knoveleng/rainbowplus, supporting
reproducibility and future research in LLM red-teaming.Summary
AI-Generated Summary