WalledEval: Комплексный инструментарий оценки безопасности для больших языковых моделей

Аннотация

WalledEval - это комплексный набор инструментов для тестирования безопасности искусственного интеллекта, разработанный для оценки больших языковых моделей (LLM). Он поддерживает широкий спектр моделей, включая как модели с открытым весом, так и те, которые основаны на API, и включает более 35 показателей безопасности, охватывающих такие области, как мультиязычная безопасность, преувеличенная безопасность и инъекции подсказок. Фреймворк поддерживает как оценку LLM, так и судейскую оценку, и включает пользовательские мутаторы для тестирования безопасности относительно различных стилей текста, таких как будущее время и перефразирование. Кроме того, WalledEval представляет WalledGuard - новый, небольшой и производительный инструмент модерации контента, а также SGXSTest - показатель для оценки преувеличенной безопасности в культурных контекстах. Мы предоставляем WalledEval для общего доступа по ссылке https://github.com/walledai/walledevalA.

English

WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking, and incorporates custom mutators to test safety against various text-style mutations such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small and performant content moderation tool, and SGXSTest, a benchmark for assessing exaggerated safety in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledevalA.

WalledEval: Комплексный инструментарий оценки безопасности для больших языковых моделей

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models

Аннотация

Support