Ruby Teaming: Melhorando a Pesquisa de Diversidade de Qualidade com Memória para Testes de Invasão Automatizados
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
June 17, 2024
Autores: Vernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Resumo
Propomos o Ruby Teaming, um método que melhora o Rainbow Teaming ao incluir um cache de memória como sua terceira dimensão. A dimensão de memória fornece pistas ao mutador para gerar prompts de melhor qualidade, tanto em termos de taxa de sucesso do ataque (ASR) quanto de diversidade de qualidade. O arquivo de prompts gerado pelo Ruby Teaming tem uma ASR de 74%, o que é 20% maior do que a linha de base. Em termos de diversidade de qualidade, o Ruby Teaming supera o Rainbow Teaming em 6% e 3% no Índice de Uniformidade de Shannon (SEI) e no Índice de Diversidade de Simpson (SDI), respectivamente.
English
We propose Ruby Teaming, a method that improves on Rainbow Teaming by
including a memory cache as its third dimension. The memory dimension provides
cues to the mutator to yield better-quality prompts, both in terms of attack
success rate (ASR) and quality diversity. The prompt archive generated by Ruby
Teaming has an ASR of 74%, which is 20% higher than the baseline. In terms of
quality diversity, Ruby Teaming outperforms Rainbow Teaming by 6% and 3% on
Shannon's Evenness Index (SEI) and Simpson's Diversity Index (SDI),
respectively.