WalledEval: Un conjunto completo de herramientas de evaluación de seguridad para modelos de lenguaje grandes
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models
August 7, 2024
Autores: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI
Resumen
WalledEval es un completo conjunto de herramientas de prueba de seguridad de IA diseñado para evaluar grandes modelos de lenguaje (LLMs). Acomoda una amplia gama de modelos, incluidos los de peso abierto y basados en API, y cuenta con más de 35 pruebas de seguridad que abarcan áreas como seguridad multilingüe, seguridad exagerada e inyecciones de indicaciones. El marco de trabajo admite tanto la evaluación de LLM como de jueces, e incorpora mutadores personalizados para probar la seguridad frente a diversas mutaciones de estilo de texto, como el tiempo futuro y la parafraseo. Además, WalledEval presenta WalledGuard, una nueva herramienta de moderación de contenido pequeña y eficiente, y SGXSTest, una prueba para evaluar la seguridad exagerada en contextos culturales. Ponemos WalledEval a disposición del público en https://github.com/walledai/walledevalA.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate
large language models (LLMs). It accommodates a diverse range of models,
including both open-weight and API-based ones, and features over 35 safety
benchmarks covering areas such as multilingual safety, exaggerated safety, and
prompt injections. The framework supports both LLM and judge benchmarking, and
incorporates custom mutators to test safety against various text-style
mutations such as future tense and paraphrasing. Additionally, WalledEval
introduces WalledGuard, a new, small and performant content moderation tool,
and SGXSTest, a benchmark for assessing exaggerated safety in cultural
contexts. We make WalledEval publicly available at
https://github.com/walledai/walledevalA.Summary
AI-Generated Summary