ChatPaper.aiChatPaper

RedBench : Un jeu de données universel pour l'évaluation exhaustive des modèles de langage de grande taille par la méthode du test d'intrusion

RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

January 7, 2026
papers.authors: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI

papers.abstract

Alors que les grands modèles de langage (LLM) deviennent essentiels dans des applications critiques pour la sécurité, il est primordial de garantir leur robustesse face aux invites adverses. Cependant, les ensembles de données existants pour les tests d'intrusion (« red teaming ») souffrent de catégorisations des risques incohérentes, d'une couverture de domaines limitée et d'évaluations obsolètes, ce qui entrave les évaluations systématiques des vulnérabilités. Pour relever ces défis, nous présentons RedBench, un ensemble de données universel agrégeant 37 benchmarks issus de conférences et de dépôts de premier plan, comprenant 29 362 échantillons couvrant des invites d'attaque et de refus. RedBench utilise une taxonomie standardisée avec 22 catégories de risques et 19 domaines, permettant des évaluations cohérentes et exhaustives des vulnérabilités des LLM. Nous fournissons une analyse détaillée des ensembles de données existants, établissons des performances de référence pour les LLM modernes, et ouvrons en libre accès l'ensemble de données et le code d'évaluation. Nos contributions facilitent des comparaisons robustes, stimulent la recherche future et promeuvent le développement de LLM sûrs et fiables pour un déploiement réel. Code : https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval
PDF41January 9, 2026