Ruby Teaming: Kwaliteitsdiversiteitzoeken verbeteren met geheugen voor geautomatiseerde red teaming
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
June 17, 2024
Auteurs: Vernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Samenvatting
We stellen Ruby Teaming voor, een methode die Rainbow Teaming verbetert door
een geheugencache als derde dimensie toe te voegen. De geheugendimensie biedt
aanwijzingen aan de mutator om prompts van hogere kwaliteit te genereren, zowel
wat betreft aanvalssuccespercentage (ASR) als kwaliteitsdiversiteit. Het promptarchief
gegenereerd door Ruby Teaming heeft een ASR van 74%, wat 20% hoger is dan de
baseline. Wat betreft kwaliteitsdiversiteit presteert Ruby Teaming 6% en 3% beter
dan Rainbow Teaming op respectievelijk Shannon's Evenness Index (SEI) en
Simpson's Diversity Index (SDI).
English
We propose Ruby Teaming, a method that improves on Rainbow Teaming by
including a memory cache as its third dimension. The memory dimension provides
cues to the mutator to yield better-quality prompts, both in terms of attack
success rate (ASR) and quality diversity. The prompt archive generated by Ruby
Teaming has an ASR of 74%, which is 20% higher than the baseline. In terms of
quality diversity, Ruby Teaming outperforms Rainbow Teaming by 6% and 3% on
Shannon's Evenness Index (SEI) and Simpson's Diversity Index (SDI),
respectively.