SecureCode v2.0: Промышленный набор данных для обучения моделей генерации кода с учетом безопасности
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models
December 20, 2025
Авторы: Scott Thornton
cs.AI
Аннотация
ИИ-ассистенты производят уязвимый код в 45% сценариев, связанных с безопасностью, что приводит к массовому внедрению уязвимостей в промышленные системы. Однако существующие наборы данных по безопасному программированию не соответствуют требованиям. Им не хватает привязки к реальным инцидентам, они не обеспечивают масштаба, необходимого для современного обучения, и упускают операционный контекст безопасности, нужный разработчикам для промышленного развертывания.
Мы представляем SecureCode v2.0 — промышленный набор данных из 1215 примеров кода, сфокусированных на безопасности, которые прошли структурную валидацию и экспертный анализ безопасности. Каждый пример привязан к реальным задокументированным инцидентам безопасности со ссылками на CVE, содержит уязвимую и безопасную реализации, демонстрирует конкретные атаки и включает рекомендации по глубокой эшелонированной защите для эксплуатации. Набор данных охватывает 11 категорий уязвимостей (полный OWASP Top 10:2025 плюс угрозы безопасности ИИ/МО) для 11 языков программирования (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin и YAML для инфраструктуры как кода).
Наша система обеспечения качества гарантирует полную привязку к инцидентам. Каждый пример включает стратегии интеграции с SIEM, рекомендации по усилению защиты инфраструктуры (конфигурации Docker, AppArmor, WAF) и подходы к тестированию с использованием соответствующих языку фреймворков. Набор данных использует 4-шаговую диалоговую структуру, отражающую реальное взаимодействие разработчика с ИИ: от базовых реализаций к расширенным вопросам безопасности и рекомендациям по глубокой защите.
Наш вклад: (1) 1215 тщательно проверенных примеров, разделенных на 989 для обучения, 122 для валидации и 104 для тестирования; (2) автоматизированная система валидации, обеспечивающая согласованность набора данных; (3) 4-шаговая диалоговая структура, отражающая реалистичные рабочие процессы безопасности; (4) комплексные операционные руководства по безопасности со стратегиями интеграции SIEM; (5) полная достоверность языко-специфичных реализаций; (6) открытая публикация данных, инструментов валидации и протоколов тестирования.
English
AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code).
Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance.
Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.