ChatPaper.aiChatPaper

RainbowPlus : Amélioration de la génération de prompts adverses via une recherche évolutive de qualité et de diversité

RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

April 21, 2025
Auteurs: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) démontrent des capacités remarquables mais sont vulnérables aux prompts adverses qui exploitent leurs faiblesses pour produire des sorties dangereuses ou biaisées. Les méthodes existantes de red-teaming rencontrent souvent des défis de scalabilité, des exigences intensives en ressources, ou une diversité limitée dans les stratégies d'attaque. Nous proposons RainbowPlus, un nouveau cadre de red-teaming basé sur le calcul évolutif, améliorant la génération de prompts adverses grâce à une recherche adaptative de qualité-diversité (QD) qui étend les algorithmes évolutifs classiques comme MAP-Elites avec des innovations spécifiques aux modèles de langage. En utilisant une archive multi-éléments pour stocker des prompts diversifiés et de haute qualité, ainsi qu'une fonction de fitness complète pour évaluer plusieurs prompts simultanément, RainbowPlus surmonte les limitations des archives à prompt unique et des comparaisons par paires dans les méthodes QD précédentes comme Rainbow Teaming. Les expériences comparant RainbowPlus aux méthodes QD sur six ensembles de données de référence et quatre LLMs open-source démontrent un taux de réussite d'attaque (ASR) supérieur et une diversité accrue (Diverse-Score ≈ 0.84), générant jusqu'à 100 fois plus de prompts uniques (par exemple, 10 418 contre 100 pour Ministral-8B-Instruct-2410). Face à neuf méthodes de pointe sur le jeu de données HarmBench avec douze LLMs (dix open-source, deux fermés), RainbowPlus atteint un ASR moyen de 81,1 %, surpassant AutoDAN-Turbo de 3,9 %, et est 9 fois plus rapide (1,45 contre 13,50 heures). Notre implémentation open-source favorise les avancées futures en matière de sécurité des LLMs, offrant un outil scalable pour l'évaluation des vulnérabilités. Le code et les ressources sont disponibles publiquement à l'adresse https://github.com/knoveleng/rainbowplus, soutenant la reproductibilité et les recherches futures en red-teaming des LLMs.
English
Large Language Models (LLMs) exhibit remarkable capabilities but are susceptible to adversarial prompts that exploit vulnerabilities to produce unsafe or biased outputs. Existing red-teaming methods often face scalability challenges, resource-intensive requirements, or limited diversity in attack strategies. We propose RainbowPlus, a novel red-teaming framework rooted in evolutionary computation, enhancing adversarial prompt generation through an adaptive quality-diversity (QD) search that extends classical evolutionary algorithms like MAP-Elites with innovations tailored for language models. By employing a multi-element archive to store diverse high-quality prompts and a comprehensive fitness function to evaluate multiple prompts concurrently, RainbowPlus overcomes the constraints of single-prompt archives and pairwise comparisons in prior QD methods like Rainbow Teaming. Experiments comparing RainbowPlus to QD methods across six benchmark datasets and four open-source LLMs demonstrate superior attack success rate (ASR) and diversity (Diverse-Score approx 0.84), generating up to 100 times more unique prompts (e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%, surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours). Our open-source implementation fosters further advancements in LLM safety, offering a scalable tool for vulnerability assessment. Code and resources are publicly available at https://github.com/knoveleng/rainbowplus, supporting reproducibility and future research in LLM red-teaming.

Summary

AI-Generated Summary

PDF68April 22, 2025