Ferret : Équipe rouge automatisée plus rapide et efficace avec une technique de notation basée sur les récompenses
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique
August 20, 2024
Auteurs: Tej Deep Pala, Vernon Y. H. Toh, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Résumé
À l'ère actuelle, où les grands modèles de langage (GML) sont intégrés dans de nombreuses applications du monde réel, garantir leur sécurité et leur robustesse est crucial pour une utilisation responsable de l'IA. Les méthodes automatisées de red teaming jouent un rôle clé dans ce processus en générant des attaques adverses pour identifier et atténuer les vulnérabilités potentielles de ces modèles. Cependant, les méthodes existantes ont souvent du mal avec les performances lentes, une diversité catégorielle limitée et des exigences élevées en termes de ressources. Alors que le Rainbow Teaming, une approche récente, aborde le défi de la diversité en encadrant la génération d'incitations adverses comme une recherche qualité-diversité, il reste lent et nécessite un mutateur finement réglé pour des performances optimales. Pour surmonter ces limitations, nous proposons Ferret, une nouvelle approche qui s'appuie sur le Rainbow Teaming en générant plusieurs mutations d'incitations adverses par itération et en utilisant une fonction de notation pour classer et sélectionner l'incitation adversaire la plus efficace. Nous explorons diverses fonctions de notation, y compris des modèles de récompense, Llama Guard et GML-comme-juge, pour classer les mutations adverses en fonction de leur potentiel de nuisance afin d'améliorer l'efficacité de la recherche de mutations nuisibles. Nos résultats démontrent que Ferret, en utilisant un modèle de récompense comme fonction de notation, améliore le taux de réussite global de l'attaque (ASR) à 95 %, ce qui est 46 % plus élevé que le Rainbow Teaming. De plus, Ferret réduit le temps nécessaire pour atteindre un ASR de 90 % de 15,2 % par rapport à la référence et génère des incitations adverses transférables, c'est-à-dire efficaces sur d'autres GML de plus grande taille. Nos codes sont disponibles sur https://github.com/declare-lab/ferret.
English
In today's era, where large language models (LLMs) are integrated into
numerous real-world applications, ensuring their safety and robustness is
crucial for responsible AI usage. Automated red-teaming methods play a key role
in this process by generating adversarial attacks to identify and mitigate
potential vulnerabilities in these models. However, existing methods often
struggle with slow performance, limited categorical diversity, and high
resource demands. While Rainbow Teaming, a recent approach, addresses the
diversity challenge by framing adversarial prompt generation as a
quality-diversity search, it remains slow and requires a large fine-tuned
mutator for optimal performance. To overcome these limitations, we propose
Ferret, a novel approach that builds upon Rainbow Teaming by generating
multiple adversarial prompt mutations per iteration and using a scoring
function to rank and select the most effective adversarial prompt. We explore
various scoring functions, including reward models, Llama Guard, and
LLM-as-a-judge, to rank adversarial mutations based on their potential harm to
improve the efficiency of the search for harmful mutations. Our results
demonstrate that Ferret, utilizing a reward model as a scoring function,
improves the overall attack success rate (ASR) to 95%, which is 46% higher than
Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90%
ASR by 15.2% compared to the baseline and generates adversarial prompts that
are transferable i.e. effective on other LLMs of larger size. Our codes are
available at https://github.com/declare-lab/ferret.Summary
AI-Generated Summary