ChatPaper.aiChatPaper

RedBench: 大規模言語モデルの包括的レッドチーミングのための汎用データセット

RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

January 7, 2026
著者: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI

要旨

大規模言語モデル(LLM)が安全性が重視される応用分野で不可欠となるにつれ、敵対的プロンプトに対する頑健性の確保が極めて重要となっている。しかし、既存のレッドチーミングデータセットは、リスク分類の不統一、ドメインカバレッジの限界、評価手法の陳腐化といった問題を抱えており、体系的な脆弱性評価の妨げとなっている。これらの課題に対処するため、本論文ではRedBenchを提案する。これは主要な学会やリポジトリから37のベンチマークデータセットを集約した普遍的なデータセットであり、攻撃プロンプトと拒否プロンプトに分類される29,362のサンプルで構成される。RedBenchは22のリスクカテゴリと19のドメインからなる標準化された分類体系を採用し、LLMの脆弱性を一貫性かつ包括的に評価することを可能にする。我々は既存データセットの詳細な分析を提供し、現代のLLMに対するベースラインを確立するとともに、データセットと評価コードを公開する。これらの貢献により、頑健な比較が容易になり、将来の研究が促進され、実世界での展開に向けた安全で信頼性の高いLLMの開発が推進されることが期待される。コード: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval
PDF41January 9, 2026