WalledEval: Um Kit Abrangente de Avaliação de Segurança para Modelos de Linguagem Grandes
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models
August 7, 2024
Autores: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI
Resumo
WalledEval é um abrangente conjunto de ferramentas de teste de segurança de IA projetado para avaliar grandes modelos de linguagem (LLMs). Ele acomoda uma ampla gama de modelos, incluindo aqueles baseados em peso aberto e API, e apresenta mais de 35 benchmarks de segurança cobrindo áreas como segurança multilíngue, segurança exagerada e injeções de prompts. O framework suporta tanto a avaliação de LLM quanto de juízes, e incorpora mutadores personalizados para testar a segurança contra várias mutações de estilo de texto, como tempo futuro e parafraseamento. Além disso, o WalledEval introduz o WalledGuard, uma nova ferramenta de moderação de conteúdo pequena e eficiente, e o SGXSTest, um benchmark para avaliar a segurança exagerada em contextos culturais. Disponibilizamos o WalledEval publicamente em https://github.com/walledai/walledevalA.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate
large language models (LLMs). It accommodates a diverse range of models,
including both open-weight and API-based ones, and features over 35 safety
benchmarks covering areas such as multilingual safety, exaggerated safety, and
prompt injections. The framework supports both LLM and judge benchmarking, and
incorporates custom mutators to test safety against various text-style
mutations such as future tense and paraphrasing. Additionally, WalledEval
introduces WalledGuard, a new, small and performant content moderation tool,
and SGXSTest, a benchmark for assessing exaggerated safety in cultural
contexts. We make WalledEval publicly available at
https://github.com/walledai/walledevalA.Summary
AI-Generated Summary