WalledEval: Комплексный инструментарий оценки безопасности для больших языковых моделей
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models
August 7, 2024
Авторы: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI
Аннотация
WalledEval - это комплексный набор инструментов для тестирования безопасности искусственного интеллекта, разработанный для оценки больших языковых моделей (LLM). Он поддерживает широкий спектр моделей, включая как модели с открытым весом, так и те, которые основаны на API, и включает более 35 показателей безопасности, охватывающих такие области, как мультиязычная безопасность, преувеличенная безопасность и инъекции подсказок. Фреймворк поддерживает как оценку LLM, так и судейскую оценку, и включает пользовательские мутаторы для тестирования безопасности относительно различных стилей текста, таких как будущее время и перефразирование. Кроме того, WalledEval представляет WalledGuard - новый, небольшой и производительный инструмент модерации контента, а также SGXSTest - показатель для оценки преувеличенной безопасности в культурных контекстах. Мы предоставляем WalledEval для общего доступа по ссылке https://github.com/walledai/walledevalA.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate
large language models (LLMs). It accommodates a diverse range of models,
including both open-weight and API-based ones, and features over 35 safety
benchmarks covering areas such as multilingual safety, exaggerated safety, and
prompt injections. The framework supports both LLM and judge benchmarking, and
incorporates custom mutators to test safety against various text-style
mutations such as future tense and paraphrasing. Additionally, WalledEval
introduces WalledGuard, a new, small and performant content moderation tool,
and SGXSTest, a benchmark for assessing exaggerated safety in cultural
contexts. We make WalledEval publicly available at
https://github.com/walledai/walledevalA.Summary
AI-Generated Summary