Ruby Teaming: 自動レッドチーミングにおけるメモリを活用した品質多様性探索の改善
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
June 17, 2024
著者: Vernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria
cs.AI
要旨
我々は、Rainbow Teamingを改良したRuby Teamingという手法を提案する。この手法では、メモリキャッシュを第3の次元として組み込んでいる。メモリ次元は、攻撃成功率(ASR)と品質多様性の両面で、より高品質なプロンプトを生成するための手がかりを変異器に提供する。Ruby Teamingによって生成されたプロンプトアーカイブのASRは74%であり、ベースラインよりも20%高い。品質多様性に関しては、Ruby TeamingはRainbow Teamingをシャノンの均等度指数(SEI)で6%、シンプソンの多様度指数(SDI)で3%上回っている。
English
We propose Ruby Teaming, a method that improves on Rainbow Teaming by
including a memory cache as its third dimension. The memory dimension provides
cues to the mutator to yield better-quality prompts, both in terms of attack
success rate (ASR) and quality diversity. The prompt archive generated by Ruby
Teaming has an ASR of 74%, which is 20% higher than the baseline. In terms of
quality diversity, Ruby Teaming outperforms Rainbow Teaming by 6% and 3% on
Shannon's Evenness Index (SEI) and Simpson's Diversity Index (SDI),
respectively.Summary
AI-Generated Summary