Ferret: Snellere en Effectievere Geautomatiseerde Red Teaming met Beloningsgebaseerde Scoringsmethodiek

Samenvatting

In het huidige tijdperk, waarin grote taalmodellen (LLMs) zijn geïntegreerd in talloze real-world toepassingen, is het waarborgen van hun veiligheid en robuustheid cruciaal voor verantwoord AI-gebruik. Geautomatiseerde red-teaming methoden spelen hierbij een sleutelrol door het genereren van adversariële aanvallen om potentiële kwetsbaarheden in deze modellen te identificeren en te mitigeren. Bestaande methoden kampen echter vaak met trage prestaties, beperkte categorische diversiteit en hoge resource-eisen. Hoewel Rainbow Teaming, een recente aanpak, de diversiteitsuitdaging aanpakt door adversariële promptgeneratie te formuleren als een kwaliteit-diversiteit zoekopdracht, blijft het traag en vereist het een grote fijn afgestelde mutator voor optimale prestaties. Om deze beperkingen te overwinnen, stellen we Ferret voor, een nieuwe aanpak die voortbouwt op Rainbow Teaming door meerdere adversariële promptmutaties per iteratie te genereren en een scoringsfunctie te gebruiken om de meest effectieve adversariële prompt te rangschikken en te selecteren. We onderzoeken verschillende scoringsfuncties, waaronder beloningsmodellen, Llama Guard en LLM-as-a-judge, om adversariële mutaties te rangschikken op basis van hun potentiële schade om de efficiëntie van de zoektocht naar schadelijke mutaties te verbeteren. Onze resultaten tonen aan dat Ferret, met behulp van een beloningsmodel als scoringsfunctie, het algehele aanvalssuccespercentage (ASR) verbetert tot 95%, wat 46% hoger is dan Rainbow Teaming. Bovendien reduceert Ferret de benodigde tijd om een 90% ASR te bereiken met 15,2% vergeleken met de baseline en genereert het adversariële prompts die overdraagbaar zijn, d.w.z. effectief op andere LLMs van grotere omvang. Onze codes zijn beschikbaar op https://github.com/declare-lab/ferret.

English

In today's era, where large language models (LLMs) are integrated into numerous real-world applications, ensuring their safety and robustness is crucial for responsible AI usage. Automated red-teaming methods play a key role in this process by generating adversarial attacks to identify and mitigate potential vulnerabilities in these models. However, existing methods often struggle with slow performance, limited categorical diversity, and high resource demands. While Rainbow Teaming, a recent approach, addresses the diversity challenge by framing adversarial prompt generation as a quality-diversity search, it remains slow and requires a large fine-tuned mutator for optimal performance. To overcome these limitations, we propose Ferret, a novel approach that builds upon Rainbow Teaming by generating multiple adversarial prompt mutations per iteration and using a scoring function to rank and select the most effective adversarial prompt. We explore various scoring functions, including reward models, Llama Guard, and LLM-as-a-judge, to rank adversarial mutations based on their potential harm to improve the efficiency of the search for harmful mutations. Our results demonstrate that Ferret, utilizing a reward model as a scoring function, improves the overall attack success rate (ASR) to 95%, which is 46% higher than Rainbow Teaming. Additionally, Ferret reduces the time needed to achieve a 90% ASR by 15.2% compared to the baseline and generates adversarial prompts that are transferable i.e. effective on other LLMs of larger size. Our codes are available at https://github.com/declare-lab/ferret.

Ferret: Snellere en Effectievere Geautomatiseerde Red Teaming met Beloningsgebaseerde Scoringsmethodiek

Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique

Samenvatting

Summary

Support

Support