RedBench: un Dataset Universale per il Test Completo delle Vulnerabilità dei Modelli Linguistici di Grandi Dimensioni
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
January 7, 2026
Autori: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Abstract
Man mano che i grandi modelli linguistici (LLM) diventano parte integrante di applicazioni critiche per la sicurezza, garantire la loro robustezza contro prompt avversari è di fondamentale importanza. Tuttavia, i dataset esistenti per il red teaming soffrono di categorizzazioni del rischio inconsistenti, una copertura di domini limitata e valutazioni obsolete, ostacolando valutazioni sistematiche delle vulnerabilità. Per affrontare queste sfide, introduciamo RedBench, un dataset universale che aggrega 37 dataset di benchmark provenienti da conferenze e repository di primo piano, comprendente 29.362 campioni tra prompt di attacco e di rifiuto. RedBench utilizza una tassonomia standardizzata con 22 categorie di rischio e 19 domini, consentendo valutazioni consistenti e complete delle vulnerabilità degli LLM. Forniamo un'analisi dettagliata dei dataset esistenti, stabiliamo baseline per gli LLM moderni e rendiamo open-source il dataset e il codice di valutazione. I nostri contributi facilitano confronti robusti, promuovono la ricerca futura e favoriscono lo sviluppo di LLM sicuri e affidabili per il dispiegamento nel mondo reale. Codice: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval