루비 팀잉: 자동화된 레드 팀잉을 위한 메모리 기반 품질 다양성 탐색 개선
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
June 17, 2024
저자: Vernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria
cs.AI
초록
우리는 Rainbow Teaming을 개선한 Ruby Teaming 방법을 제안합니다. 이 방법은 메모리 캐시를 세 번째 차원으로 포함시킵니다. 메모리 차원은 변이자(mutator)에게 더 높은 품질의 프롬프트를 생성하도록 단서를 제공하며, 이는 공격 성공률(ASR)과 품질 다양성 측면에서 모두 적용됩니다. Ruby Teaming으로 생성된 프롬프트 아카이브의 ASR은 74%로, 기준치보다 20% 높습니다. 품질 다양성 측면에서는 Ruby Teaming이 Shannon의 균등성 지수(SEI)와 Simpson의 다양성 지수(SDI)에서 각각 6%와 3% 더 우수한 성능을 보입니다.
English
We propose Ruby Teaming, a method that improves on Rainbow Teaming by
including a memory cache as its third dimension. The memory dimension provides
cues to the mutator to yield better-quality prompts, both in terms of attack
success rate (ASR) and quality diversity. The prompt archive generated by Ruby
Teaming has an ASR of 74%, which is 20% higher than the baseline. In terms of
quality diversity, Ruby Teaming outperforms Rainbow Teaming by 6% and 3% on
Shannon's Evenness Index (SEI) and Simpson's Diversity Index (SDI),
respectively.