Ferret: Técnica de Puntuación Basada en Recompensas para Red Team Automatizado más Rápido y Efectivo
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique
August 20, 2024
Autores: Tej Deep Pala, Vernon Y. H. Toh, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Resumen
En la era actual, donde los grandes modelos de lenguaje (GL) se integran en numerosas aplicaciones del mundo real, garantizar su seguridad y robustez es crucial para un uso responsable de la IA. Los métodos automatizados de red teaming juegan un papel clave en este proceso al generar ataques adversarios para identificar y mitigar posibles vulnerabilidades en estos modelos. Sin embargo, los métodos existentes a menudo tienen dificultades con el rendimiento lento, la diversidad limitada de categorías y altas demandas de recursos. Mientras que Rainbow Teaming, un enfoque reciente, aborda el desafío de la diversidad al enmarcar la generación de estímulos adversarios como una búsqueda de calidad-diversidad, sigue siendo lento y requiere un mutador finamente ajustado para un rendimiento óptimo. Para superar estas limitaciones, proponemos Ferret, un enfoque novedoso que se basa en Rainbow Teaming al generar múltiples mutaciones de estímulos adversarios por iteración y utilizar una función de puntuación para clasificar y seleccionar el estímulo adversario más efectivo. Exploramos diversas funciones de puntuación, incluidos modelos de recompensa, Llama Guard y GL como juez, para clasificar las mutaciones adversarias según su posible daño y mejorar la eficiencia de la búsqueda de mutaciones dañinas. Nuestros resultados demuestran que Ferret, utilizando un modelo de recompensa como función de puntuación, mejora la tasa de éxito del ataque global (ASR) al 95%, lo que es un 46% más alto que Rainbow Teaming. Además, Ferret reduce el tiempo necesario para lograr un ASR del 90% en un 15.2% en comparación con el valor base y genera estímulos adversarios transferibles, es decir, efectivos en otros GL de mayor tamaño. Nuestros códigos están disponibles en https://github.com/declare-lab/ferret.
English
In today's era, where large language models (LLMs) are integrated into
numerous real-world applications, ensuring their safety and robustness is
crucial for responsible AI usage. Automated red-teaming methods play a key role
in this process by generating adversarial attacks to identify and mitigate
potential vulnerabilities in these models. However, existing methods often
struggle with slow performance, limited categorical diversity, and high
resource demands. While Rainbow Teaming, a recent approach, addresses the
diversity challenge by framing adversarial prompt generation as a
quality-diversity search, it remains slow and requires a large fine-tuned
mutator for optimal performance. To overcome these limitations, we propose
Ferret, a novel approach that builds upon Rainbow Teaming by generating
multiple adversarial prompt mutations per iteration and using a scoring
function to rank and select the most effective adversarial prompt. We explore
various scoring functions, including reward models, Llama Guard, and
LLM-as-a-judge, to rank adversarial mutations based on their potential harm to
improve the efficiency of the search for harmful mutations. Our results
demonstrate that Ferret, utilizing a reward model as a scoring function,
improves the overall attack success rate (ASR) to 95%, which is 46% higher than
Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90%
ASR by 15.2% compared to the baseline and generates adversarial prompts that
are transferable i.e. effective on other LLMs of larger size. Our codes are
available at https://github.com/declare-lab/ferret.Summary
AI-Generated Summary