Ferret : Équipe rouge automatisée plus rapide et efficace avec une technique de notation basée sur les récompenses

papers.abstract

À l'ère actuelle, où les grands modèles de langage (GML) sont intégrés dans de nombreuses applications du monde réel, garantir leur sécurité et leur robustesse est crucial pour une utilisation responsable de l'IA. Les méthodes automatisées de red teaming jouent un rôle clé dans ce processus en générant des attaques adverses pour identifier et atténuer les vulnérabilités potentielles de ces modèles. Cependant, les méthodes existantes ont souvent du mal avec les performances lentes, une diversité catégorielle limitée et des exigences élevées en termes de ressources. Alors que le Rainbow Teaming, une approche récente, aborde le défi de la diversité en encadrant la génération d'incitations adverses comme une recherche qualité-diversité, il reste lent et nécessite un mutateur finement réglé pour des performances optimales. Pour surmonter ces limitations, nous proposons Ferret, une nouvelle approche qui s'appuie sur le Rainbow Teaming en générant plusieurs mutations d'incitations adverses par itération et en utilisant une fonction de notation pour classer et sélectionner l'incitation adversaire la plus efficace. Nous explorons diverses fonctions de notation, y compris des modèles de récompense, Llama Guard et GML-comme-juge, pour classer les mutations adverses en fonction de leur potentiel de nuisance afin d'améliorer l'efficacité de la recherche de mutations nuisibles. Nos résultats démontrent que Ferret, en utilisant un modèle de récompense comme fonction de notation, améliore le taux de réussite global de l'attaque (ASR) à 95 %, ce qui est 46 % plus élevé que le Rainbow Teaming. De plus, Ferret réduit le temps nécessaire pour atteindre un ASR de 90 % de 15,2 % par rapport à la référence et génère des incitations adverses transférables, c'est-à-dire efficaces sur d'autres GML de plus grande taille. Nos codes sont disponibles sur https://github.com/declare-lab/ferret.

English

In today's era, where large language models (LLMs) are integrated into numerous real-world applications, ensuring their safety and robustness is crucial for responsible AI usage. Automated red-teaming methods play a key role in this process by generating adversarial attacks to identify and mitigate potential vulnerabilities in these models. However, existing methods often struggle with slow performance, limited categorical diversity, and high resource demands. While Rainbow Teaming, a recent approach, addresses the diversity challenge by framing adversarial prompt generation as a quality-diversity search, it remains slow and requires a large fine-tuned mutator for optimal performance. To overcome these limitations, we propose Ferret, a novel approach that builds upon Rainbow Teaming by generating multiple adversarial prompt mutations per iteration and using a scoring function to rank and select the most effective adversarial prompt. We explore various scoring functions, including reward models, Llama Guard, and LLM-as-a-judge, to rank adversarial mutations based on their potential harm to improve the efficiency of the search for harmful mutations. Our results demonstrate that Ferret, utilizing a reward model as a scoring function, improves the overall attack success rate (ASR) to 95%, which is 46% higher than Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90% ASR by 15.2% compared to the baseline and generates adversarial prompts that are transferable i.e. effective on other LLMs of larger size. Our codes are available at https://github.com/declare-lab/ferret.

Ferret : Équipe rouge automatisée plus rapide et efficace avec une technique de notation basée sur les récompenses

Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique

papers.abstract

Support