ChatPaper.aiChatPaper

WalledEval: 대형 언어 모델을 위한 포괄적인 안전성 평가 도구

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models

August 7, 2024
저자: Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria
cs.AI

초록

WalledEval은 대규모 언어 모델(LLM)을 평가하기 위해 설계된 포괄적인 AI 안전성 테스트 툴킷입니다. 이는 오픈 웨이트 및 API 기반 모델을 포함한 다양한 모델을 수용하며, 다국어 안전성, 과장된 안전성, 그리고 프롬프트 주입과 같은 영역을 포함하는 35개 이상의 안전성 벤치마크를 제공합니다. 이 프레임워크는 LLM과 판사 벤치마킹을 모두 지원하며, 미래 시제 및 다양한 텍스트 스타일 변이에 대한 안전성을 테스트하기 위해 사용자 정의 뮤테이터를 통합하고 있습니다. 게다가, WalledEval은 새롭고 작고 성능이 우수한 콘텐츠 모더레이션 도구인 WalledGuard와 문화적 맥락에서 과장된 안전성을 평가하기 위한 벤치마크인 SGXSTest를 소개합니다. WalledEval은 https://github.com/walledai/walledevalA에서 공개되어 있습니다.
English
WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking, and incorporates custom mutators to test safety against various text-style mutations such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small and performant content moderation tool, and SGXSTest, a benchmark for assessing exaggerated safety in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledevalA.

Summary

AI-Generated Summary

PDF183November 28, 2024