RedBench: Un Conjunto de Datos Universal para la Evaluación Integral de la Seguridad en Modelos de Lenguaje Grandes
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
January 7, 2026
Autores: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Resumen
A medida que los grandes modelos de lenguaje (LLM) se vuelven integrales en aplicaciones críticas para la seguridad, garantizar su robustez frente a *prompts* adversarios es primordial. Sin embargo, los conjuntos de datos existentes para *red teaming* adolecen de categorizaciones de riesgo inconsistentes, cobertura de dominios limitada y evaluaciones obsoletas, lo que dificulta las evaluaciones sistemáticas de vulnerabilidades. Para abordar estos desafíos, presentamos RedBench, un conjunto de datos universal que agrega 37 conjuntos de datos de referencia de conferencias y repositorios líderes, que comprende 29.362 muestras de *prompts* de ataque y de rechazo. RedBench emplea una taxonomía estandarizada con 22 categorías de riesgo y 19 dominios, permitiendo evaluaciones consistentes y exhaustivas de las vulnerabilidades de los LLM. Proporcionamos un análisis detallado de los conjuntos de datos existentes, establecemos líneas base para modelos de lenguaje modernos, y liberamos como código abierto el conjunto de datos y el código de evaluación. Nuestras contribuciones facilitan comparaciones robustas, fomentan la investigación futura y promueven el desarrollo de LLM seguros y confiables para su implementación en el mundo real. Código: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval