RedBench: Ein universeller Datensatz für umfassendes Red Teaming großer Sprachmodelle
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
January 7, 2026
papers.authors: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
papers.abstract
Da große Sprachmodelle (LLMs) zunehmend in sicherheitskritischen Anwendungen eingesetzt werden, ist die Gewährleistung ihrer Robustheit gegenüber adversarischen Prompts von größter Bedeutung. Bestehende Red-Teaming-Datensätze leiden jedoch unter inkonsistenten Risikokategorisierungen, begrenzter Domänenabdeckung und veralteten Evaluierungen, was systematische Schwachstellenanalysen behindert. Um diese Herausforderungen zu bewältigen, stellen wir RedBench vor, einen universellen Datensatz, der 37 Benchmark-Datensätze aus führenden Konferenzen und Repositories zusammenführt und 29.362 Samples aus Angriffs- und Verweigerungs-Prompts umfasst. RedBench verwendet eine standardisierte Taxonomie mit 22 Risikokategorien und 19 Domänen, um konsistente und umfassende Bewertungen von LLM-Schwachstellen zu ermöglichen. Wir liefern eine detaillierte Analyse bestehender Datensätze, etablieren Baseline-Ergebnisse für moderne LLMs und stellen den Datensatz sowie den Evaluierungscode als Open Source bereit. Unsere Beiträge ermöglichen robuste Vergleiche, fördern zukünftige Forschung und unterstützen die Entwicklung sicherer und zuverlässiger LLMs für den praktischen Einsatz. Code: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval