Ferret: Técnica de Puntuación Basada en Recompensas para Red Team Automatizado más Rápido y Efectivo

Resumen

En la era actual, donde los grandes modelos de lenguaje (GL) se integran en numerosas aplicaciones del mundo real, garantizar su seguridad y robustez es crucial para un uso responsable de la IA. Los métodos automatizados de red teaming juegan un papel clave en este proceso al generar ataques adversarios para identificar y mitigar posibles vulnerabilidades en estos modelos. Sin embargo, los métodos existentes a menudo tienen dificultades con el rendimiento lento, la diversidad limitada de categorías y altas demandas de recursos. Mientras que Rainbow Teaming, un enfoque reciente, aborda el desafío de la diversidad al enmarcar la generación de estímulos adversarios como una búsqueda de calidad-diversidad, sigue siendo lento y requiere un mutador finamente ajustado para un rendimiento óptimo. Para superar estas limitaciones, proponemos Ferret, un enfoque novedoso que se basa en Rainbow Teaming al generar múltiples mutaciones de estímulos adversarios por iteración y utilizar una función de puntuación para clasificar y seleccionar el estímulo adversario más efectivo. Exploramos diversas funciones de puntuación, incluidos modelos de recompensa, Llama Guard y GL como juez, para clasificar las mutaciones adversarias según su posible daño y mejorar la eficiencia de la búsqueda de mutaciones dañinas. Nuestros resultados demuestran que Ferret, utilizando un modelo de recompensa como función de puntuación, mejora la tasa de éxito del ataque global (ASR) al 95%, lo que es un 46% más alto que Rainbow Teaming. Además, Ferret reduce el tiempo necesario para lograr un ASR del 90% en un 15.2% en comparación con el valor base y genera estímulos adversarios transferibles, es decir, efectivos en otros GL de mayor tamaño. Nuestros códigos están disponibles en https://github.com/declare-lab/ferret.

English

In today's era, where large language models (LLMs) are integrated into numerous real-world applications, ensuring their safety and robustness is crucial for responsible AI usage. Automated red-teaming methods play a key role in this process by generating adversarial attacks to identify and mitigate potential vulnerabilities in these models. However, existing methods often struggle with slow performance, limited categorical diversity, and high resource demands. While Rainbow Teaming, a recent approach, addresses the diversity challenge by framing adversarial prompt generation as a quality-diversity search, it remains slow and requires a large fine-tuned mutator for optimal performance. To overcome these limitations, we propose Ferret, a novel approach that builds upon Rainbow Teaming by generating multiple adversarial prompt mutations per iteration and using a scoring function to rank and select the most effective adversarial prompt. We explore various scoring functions, including reward models, Llama Guard, and LLM-as-a-judge, to rank adversarial mutations based on their potential harm to improve the efficiency of the search for harmful mutations. Our results demonstrate that Ferret, utilizing a reward model as a scoring function, improves the overall attack success rate (ASR) to 95%, which is 46% higher than Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90% ASR by 15.2% compared to the baseline and generates adversarial prompts that are transferable i.e. effective on other LLMs of larger size. Our codes are available at https://github.com/declare-lab/ferret.

Ferret: Técnica de Puntuación Basada en Recompensas para Red Team Automatizado más Rápido y Efectivo

Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique

Resumen

Support