RainbowPlus: Улучшение генерации адверсарных промптов с помощью эволюционного поиска в пространстве качественного разнообразия
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search
April 21, 2025
Авторы: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, но уязвимы к атакующим запросам, которые эксплуатируют их слабости для генерации небезопасных или предвзятых ответов. Существующие методы "красного командования" часто сталкиваются с проблемами масштабируемости, высокими требованиями к ресурсам или ограниченным разнообразием стратегий атак. Мы предлагаем RainbowPlus — новый фреймворк для "красного командования", основанный на эволюционных вычислениях, который улучшает генерацию атакующих запросов за счет адаптивного поиска качества и разнообразия (QD), расширяющего классические эволюционные алгоритмы, такие как MAP-Elites, с инновациями, адаптированными для языковых моделей. Используя многокомпонентный архив для хранения разнообразных высококачественных запросов и комплексную функцию пригодности для оценки нескольких запросов одновременно, RainbowPlus преодолевает ограничения архивов с одним запросом и попарных сравнений в предыдущих методах QD, таких как Rainbow Teaming. Эксперименты, сравнивающие RainbowPlus с методами QD на шести эталонных наборах данных и четырех открытых LLM, демонстрируют превосходство в успешности атак (ASR) и разнообразии (Diverse-Score ≈ 0.84), генерируя до 100 раз больше уникальных запросов (например, 10 418 против 100 для Ministral-8B-Instruct-2410). На наборе данных HarmBench с двенадцатью LLM (десять открытых, две закрытых) RainbowPlus достигает средней успешности атак 81,1%, превосходя AutoDAN-Turbo на 3,9%, и работает в 9 раз быстрее (1,45 против 13,50 часов). Наша открытая реализация способствует дальнейшему развитию безопасности LLM, предлагая масштабируемый инструмент для оценки уязвимостей. Код и ресурсы доступны по адресу https://github.com/knoveleng/rainbowplus, поддерживая воспроизводимость и будущие исследования в области "красного командования" LLM.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are
susceptible to adversarial prompts that exploit vulnerabilities to produce
unsafe or biased outputs. Existing red-teaming methods often face scalability
challenges, resource-intensive requirements, or limited diversity in attack
strategies. We propose RainbowPlus, a novel red-teaming framework rooted in
evolutionary computation, enhancing adversarial prompt generation through an
adaptive quality-diversity (QD) search that extends classical evolutionary
algorithms like MAP-Elites with innovations tailored for language models. By
employing a multi-element archive to store diverse high-quality prompts and a
comprehensive fitness function to evaluate multiple prompts concurrently,
RainbowPlus overcomes the constraints of single-prompt archives and pairwise
comparisons in prior QD methods like Rainbow Teaming. Experiments comparing
RainbowPlus to QD methods across six benchmark datasets and four open-source
LLMs demonstrate superior attack success rate (ASR) and diversity
(Diverse-Score approx 0.84), generating up to 100 times more unique prompts
(e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine
state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten
open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%,
surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours).
Our open-source implementation fosters further advancements in LLM safety,
offering a scalable tool for vulnerability assessment. Code and resources are
publicly available at https://github.com/knoveleng/rainbowplus, supporting
reproducibility and future research in LLM red-teaming.Summary
AI-Generated Summary