RedBench: Um Conjunto de Dados Universal para a Testagem Abrangente de Modelos de Linguagem de Grande Porte
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
January 7, 2026
Autores: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) se tornam componentes essenciais em aplicações críticas para a segurança, garantir sua robustez contra *prompts* adversários é de suma importância. No entanto, os conjuntos de dados de *red teaming* existentes sofrem com categorizações de risco inconsistentes, cobertura de domínio limitada e avaliações desatualizadas, dificultando avaliações sistemáticas de vulnerabilidades. Para enfrentar esses desafios, apresentamos o RedBench, um conjunto de dados universal que agrega 37 *benchmarks* de conferências e repositórios líderes, compreendendo 29.362 amostras entre *prompts* de ataque e de recusa. O RedBench emprega uma taxonomia padronizada com 22 categorias de risco e 19 domínios, permitindo avaliações consistentes e abrangentes das vulnerabilidades dos LLMs. Fornecemos uma análise detalhada dos conjuntos de dados existentes, estabelecemos linhas de base para LLMs modernos e disponibilizamos em código aberto o conjunto de dados e o código de avaliação. Nossas contribuições facilitam comparações robustas, fomentam pesquisas futuras e promovem o desenvolvimento de LLMs seguros e confiáveis para implantação no mundo real. Código: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval