ChatPaper.aiChatPaper

WalledEval: Un Kit Completo per la Valutazione della Sicurezza dei Modelli Linguistici di Grande Dimensione

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models

August 7, 2024
Autori: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI

Abstract

WalledEval è un toolkit completo per il test della sicurezza dell'IA, progettato per valutare i modelli linguistici di grandi dimensioni (LLM). Supporta una vasta gamma di modelli, inclusi sia quelli a peso aperto che quelli basati su API, e offre oltre 35 benchmark di sicurezza che coprono aree come la sicurezza multilingue, la sicurezza esagerata e le iniezioni di prompt. Il framework supporta sia il benchmarking degli LLM che quello dei giudici e incorpora mutatori personalizzati per testare la sicurezza contro varie mutazioni di stile testuale, come il tempo futuro e la parafrasi. Inoltre, WalledEval introduce WalledGuard, un nuovo strumento di moderazione dei contenuti piccolo e performante, e SGXSTest, un benchmark per valutare la sicurezza esagerata in contesti culturali. Rendiamo WalledEval disponibile pubblicamente all'indirizzo https://github.com/walledai/walledevalA.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking, and incorporates custom mutators to test safety against various text-style mutations such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small and performant content moderation tool, and SGXSTest, a benchmark for assessing exaggerated safety in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledevalA.
PDF183November 28, 2024