WalledEval: Un Kit Completo per la Valutazione della Sicurezza dei Modelli Linguistici di Grande Dimensione
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models
August 7, 2024
Autori: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI
Abstract
WalledEval è un toolkit completo per il test della sicurezza dell'IA, progettato per valutare i modelli linguistici di grandi dimensioni (LLM). Supporta una vasta gamma di modelli, inclusi sia quelli a peso aperto che quelli basati su API, e offre oltre 35 benchmark di sicurezza che coprono aree come la sicurezza multilingue, la sicurezza esagerata e le iniezioni di prompt. Il framework supporta sia il benchmarking degli LLM che quello dei giudici e incorpora mutatori personalizzati per testare la sicurezza contro varie mutazioni di stile testuale, come il tempo futuro e la parafrasi. Inoltre, WalledEval introduce WalledGuard, un nuovo strumento di moderazione dei contenuti piccolo e performante, e SGXSTest, un benchmark per valutare la sicurezza esagerata in contesti culturali. Rendiamo WalledEval disponibile pubblicamente all'indirizzo https://github.com/walledai/walledevalA.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate
large language models (LLMs). It accommodates a diverse range of models,
including both open-weight and API-based ones, and features over 35 safety
benchmarks covering areas such as multilingual safety, exaggerated safety, and
prompt injections. The framework supports both LLM and judge benchmarking, and
incorporates custom mutators to test safety against various text-style
mutations such as future tense and paraphrasing. Additionally, WalledEval
introduces WalledGuard, a new, small and performant content moderation tool,
and SGXSTest, a benchmark for assessing exaggerated safety in cultural
contexts. We make WalledEval publicly available at
https://github.com/walledai/walledevalA.