RedBench: Een universele dataset voor uitgebreide red teaming van grote taalmodellen
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
January 7, 2026
Auteurs: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLM's) een integraal onderdeel worden van veiligheidskritieke toepassingen, is het waarborgen van hun robuustheid tegen adversariële prompts van cruciaal belang. Bestaande red teaming-datasets kampen echter met inconsistente risicocategorieën, beperkte domeindekking en verouderde evaluaties, wat systematische kwetsbaarheidsanalyses belemmert. Om deze uitdagingen aan te pakken, introduceren wij RedBench, een universele dataset die 37 benchmarkdatasets van toonaangevende conferenties en repositories samenbrengt, bestaande uit 29.362 voorbeelden van aanvals- en weigeringsprompts. RedBench hanteert een gestandaardiseerde taxonomie met 22 risicocategorieën en 19 domeinen, waardoor consistente en uitgebreide evaluaties van LLM-kwetsbaarheden mogelijk worden. Wij bieden een gedetailleerde analyse van bestaande datasets, stellen basislijnen op voor moderne LLM's en maken de dataset en evaluatiecode open source. Onze bijdragen vergemakkelijken robuuste vergelijkingen, stimuleren toekomstig onderzoek en bevorderen de ontwikkeling van veilige en betrouwbare LLM's voor inzet in de praktijk. Code: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval