ChatPaper.aiChatPaper

RedBench: 대규모 언어 모델 포괄적 레드 팀링을 위한 범용 데이터셋

RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

January 7, 2026
저자: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI

초록

대규모 언어 모델(LLM)이 안전이 중요한 애플리케이션의 핵심 요소로 자리잡으면서, 적대적 프롬프트에 대한 모델의 강건성을 확보하는 것이 최우선 과제가 되었습니다. 그러나 기존 레드 팀링 데이터셋은 위험 분류 체계의 불일치, 제한된 도메인 범위, 구식 평가 방식 등의 문제로 체계적인 취약점 평가에 걸림돌이 되고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 RedBench를 소개합니다. RedBench는 주요 학회 및 저장소에서 수집한 37개의 벤치마크 데이터셋을 통합한 범용 데이터셋으로, 공격 및 거부 프롬프트 샘플 총 29,362개로 구성됩니다. RedBench는 22개 위험 범주와 19개 도메인으로 구성된 표준화된 분류 체계를 적용하여 LLM 취약점에 대한 일관되고 포괄적인 평가를 가능하게 합니다. 우리는 기존 데이터셋에 대한 상세한 분석을 제공하고, 최신 LLM에 대한 기준 성능을 제시하며, 데이터셋과 평가 코드를 공개합니다. 본 연구의 기여를 통해 강건한 성능 비교가 용이해지고, 향후 연구가 촉진되며, 현실 세계에 배포 가능한 안전하고 신뢰할 수 있는 LLM 개발이 활성화될 것으로 기대합니다. 코드: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval
PDF41January 9, 2026