RainbowPlus: Verbesserung der Generierung von adversarischen Prompts durch evolutionäre Quality-Diversity-Suche
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
April 21, 2025
Autoren: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten, sind jedoch anfällig für adversariale Prompts, die Schwachstellen ausnutzen, um unsichere oder voreingenommene Ausgaben zu erzeugen. Bestehende Red-Teaming-Methoden stehen oft vor Herausforderungen in Bezug auf Skalierbarkeit, ressourcenintensive Anforderungen oder begrenzte Vielfalt in den Angriffsstrategien. Wir schlagen RainbowPlus vor, ein neuartiges Red-Teaming-Framework, das in der evolutionären Berechnung verwurzelt ist und die Erzeugung adversarieller Prompts durch eine adaptive Quality-Diversity (QD)-Suche verbessert, die klassische evolutionäre Algorithmen wie MAP-Elites mit Innovationen speziell für Sprachmodelle erweitert. Durch den Einsatz eines Multi-Element-Archivs zur Speicherung vielfältiger hochwertiger Prompts und einer umfassenden Fitnessfunktion zur gleichzeitigen Bewertung mehrerer Prompts überwindet RainbowPlus die Einschränkungen von Einzel-Prompt-Archiven und paarweisen Vergleichen in früheren QD-Methoden wie Rainbow Teaming. Experimente, die RainbowPlus mit QD-Methoden über sechs Benchmark-Datensätze und vier Open-Source-LLMs vergleichen, zeigen eine überlegene Angriffserfolgsrate (ASR) und Vielfalt (Diverse-Score ca. 0,84), wobei bis zu 100-mal mehr einzigartige Prompts erzeugt werden (z.B. 10.418 vs. 100 für Ministral-8B-Instruct-2410). Gegenüber neun state-of-the-art-Methoden auf dem HarmBench-Datensatz mit zwölf LLMs (zehn Open-Source, zwei Closed-Source) erreicht RainbowPlus eine durchschnittliche ASR von 81,1%, übertrifft AutoDAN-Turbo um 3,9% und ist 9-mal schneller (1,45 vs. 13,50 Stunden). Unsere Open-Source-Implementierung fördert weitere Fortschritte in der Sicherheit von LLMs und bietet ein skalierbares Werkzeug zur Schwachstellenbewertung. Code und Ressourcen sind öffentlich unter https://github.com/knoveleng/rainbowplus verfügbar und unterstützen Reproduzierbarkeit und zukünftige Forschung im Bereich LLM Red-Teaming.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are
susceptible to adversarial prompts that exploit vulnerabilities to produce
unsafe or biased outputs. Existing red-teaming methods often face scalability
challenges, resource-intensive requirements, or limited diversity in attack
strategies. We propose RainbowPlus, a novel red-teaming framework rooted in
evolutionary computation, enhancing adversarial prompt generation through an
adaptive quality-diversity (QD) search that extends classical evolutionary
algorithms like MAP-Elites with innovations tailored for language models. By
employing a multi-element archive to store diverse high-quality prompts and a
comprehensive fitness function to evaluate multiple prompts concurrently,
RainbowPlus overcomes the constraints of single-prompt archives and pairwise
comparisons in prior QD methods like Rainbow Teaming. Experiments comparing
RainbowPlus to QD methods across six benchmark datasets and four open-source
LLMs demonstrate superior attack success rate (ASR) and diversity
(Diverse-Score approx 0.84), generating up to 100 times more unique prompts
(e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine
state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten
open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%,
surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours).
Our open-source implementation fosters further advancements in LLM safety,
offering a scalable tool for vulnerability assessment. Code and resources are
publicly available at https://github.com/knoveleng/rainbowplus, supporting
reproducibility and future research in LLM red-teaming.Summary
AI-Generated Summary