ChatPaper.aiChatPaper

RedBench: Универсальный набор данных для комплексного тестирования на устойчивость больших языковых моделей

RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

January 7, 2026
Авторы: Quy-Anh Dang, Chris Ngo, Truong-Son Hy
cs.AI

Аннотация

По мере того как большие языковые модели (LLМ) становятся неотъемлемой частью критически важных для безопасности приложений, обеспечение их устойчивости к адверсарным промптам приобретает первостепенное значение. Однако существующие наборы данных для редтиминга страдают от несогласованных категорий риска, ограниченного охвата предметных областей и устаревших методик оценки, что препятствует систематическому анализу уязвимостей. Для решения этих проблем мы представляем RedBench — универсальный набор данных, объединяющий 37 бенчмарков из ведущих конференций и репозиториев, который включает 29 362 примера атакующих промптов и промптов на отказ. RedBench использует стандартизированную таксономию с 22 категориями рисков и 19 доменами, что позволяет проводить последовательную и всестороннюю оценку уязвимостей LLМ. Мы предоставляем детальный анализ существующих наборов данных, устанавливаем базовые показатели для современных LLМ, а также открываем исходный код набора данных и инструментов оценки. Наши разработки способствуют корректному сравнению моделей, стимулируют будущие исследования и содействуют созданию безопасных и надежных LLМ для практического применения. Код: https://github.com/knoveleng/redeval
English
As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval
PDF41January 9, 2026