ChatPaper.aiChatPaper

WalledEval : Une boîte à outils complète pour l'évaluation de la sécurité des modèles de langage à grande échelle

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models

August 7, 2024
Auteurs: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI

Résumé

WalledEval est une boîte à outils complète pour tester la sécurité des IA, conçue pour évaluer les grands modèles de langage (LLM). Il prend en charge une diversité de modèles, incluant à la fois ceux à poids ouvert et ceux basés sur API, et propose plus de 35 benchmarks de sécurité couvrant des domaines tels que la sécurité multilingue, la sécurité exagérée et les injections de prompts. Le framework supporte à la fois le benchmarking des LLM et des juges, et intègre des mutateurs personnalisés pour tester la sécurité face à diverses mutations de style de texte, comme le futur et la paraphrase. Par ailleurs, WalledEval introduit WalledGuard, un nouvel outil de modération de contenu compact et performant, ainsi que SGXSTest, un benchmark pour évaluer la sécurité exagérée dans des contextes culturels. Nous rendons WalledEval accessible au public à l'adresse suivante : https://github.com/walledai/walledevalA.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking, and incorporates custom mutators to test safety against various text-style mutations such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small and performant content moderation tool, and SGXSTest, a benchmark for assessing exaggerated safety in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledevalA.

Summary

AI-Generated Summary

PDF183November 28, 2024