RainbowPlus: Verbetering van Adversariale Promptgeneratie via Evolutionaire Kwaliteit-Diversiteit Zoekstrategie
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
April 21, 2025
Auteurs: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) vertonen opmerkelijke capaciteiten, maar zijn vatbaar voor adversariële prompts die kwetsbaarheden uitbuiten om onveilige of bevooroordeelde uitvoer te produceren. Bestaande red-teaming methoden kampen vaak met schaalbaarheidsuitdagingen, resource-intensieve vereisten of beperkte diversiteit in aanvalsstrategieën. Wij stellen RainbowPlus voor, een nieuw red-teaming raamwerk geworteld in evolutionaire berekening, dat de generatie van adversariële prompts verbetert door middel van een adaptieve kwaliteit-diversiteit (QD) zoektocht die klassieke evolutionaire algoritmen zoals MAP-Elites uitbreidt met innovaties afgestemd op taalmmodellen. Door een multi-element archief te gebruiken om diverse hoogwaardige prompts op te slaan en een uitgebreide fitnessfunctie om meerdere prompts gelijktijdig te evalueren, overkomt RainbowPlus de beperkingen van enkelvoudige prompt-archieven en paarsgewijze vergelijkingen in eerdere QD-methoden zoals Rainbow Teaming. Experimenten die RainbowPlus vergelijken met QD-methoden over zes benchmark datasets en vier open-source LLMs tonen een superieure aanvalssuccesratio (ASR) en diversiteit (Diverse-Score approx 0.84), waarbij tot 100 keer meer unieke prompts worden gegenereerd (bijv. 10.418 vs. 100 voor Ministral-8B-Instruct-2410). Tegenover negen state-of-the-art methoden op de HarmBench dataset met twaalf LLMs (tien open-source, twee closed-source), behaalt RainbowPlus een gemiddelde ASR van 81,1%, wat AutoDAN-Turbo met 3,9% overtreft, en is 9 keer sneller (1,45 vs. 13,50 uur). Onze open-source implementatie bevordert verdere vooruitgang in LLM-veiligheid, en biedt een schaalbaar hulpmiddel voor kwetsbaarheidsbeoordeling. Code en bronnen zijn publiekelijk beschikbaar op https://github.com/knoveleng/rainbowplus, wat reproduceerbaarheid en toekomstig onderzoek in LLM red-teaming ondersteunt.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are
susceptible to adversarial prompts that exploit vulnerabilities to produce
unsafe or biased outputs. Existing red-teaming methods often face scalability
challenges, resource-intensive requirements, or limited diversity in attack
strategies. We propose RainbowPlus, a novel red-teaming framework rooted in
evolutionary computation, enhancing adversarial prompt generation through an
adaptive quality-diversity (QD) search that extends classical evolutionary
algorithms like MAP-Elites with innovations tailored for language models. By
employing a multi-element archive to store diverse high-quality prompts and a
comprehensive fitness function to evaluate multiple prompts concurrently,
RainbowPlus overcomes the constraints of single-prompt archives and pairwise
comparisons in prior QD methods like Rainbow Teaming. Experiments comparing
RainbowPlus to QD methods across six benchmark datasets and four open-source
LLMs demonstrate superior attack success rate (ASR) and diversity
(Diverse-Score approx 0.84), generating up to 100 times more unique prompts
(e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine
state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten
open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%,
surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours).
Our open-source implementation fosters further advancements in LLM safety,
offering a scalable tool for vulnerability assessment. Code and resources are
publicly available at https://github.com/knoveleng/rainbowplus, supporting
reproducibility and future research in LLM red-teaming.Summary
AI-Generated Summary