SecureCode v2.0 : Un jeu de données de qualité production pour l'entraînement de modèles de génération de code sensibles à la sécurité
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models
December 20, 2025
papers.authors: Scott Thornton
cs.AI
papers.abstract
Les assistants IA produisent du code vulnérable dans 45 % des scénarios liés à la sécurité, introduisant des failles à grande échelle dans les systèmes de production. Pourtant, les ensembles de données existants sur le codage sécurisé sont insuffisants. Ils manquent de fondement incidentiel, n'offrent pas l'échelle requise pour l'entraînement moderne et négligent le contexte opérationnel de sécurité nécessaire aux développeurs pour les déploiements en production. Nous présentons SecureCode v2.0, un ensemble de données de qualité production comprenant 1 215 exemples de codage axés sur la sécurité, ayant passé une validation structurelle et une revue de sécurité experte. Chaque exemple est lié à des incidents de sécurité documentés avec des références CVE, fournit des implémentations vulnérables et sécurisées, démontre des attaques concrètes et inclut des conseils opérationnels de défense en profondeur. L'ensemble de données couvre 11 catégories de vulnérabilités (l'intégralité du OWASP Top 10:2025 ainsi que les menaces de sécurité IA/ML) dans 11 langages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin et YAML pour l'infrastructure-as-code).
Notre cadre d'assurance qualité garantit un ancrage incidentiel complet. Chaque exemple inclut des stratégies d'intégration SIEM, des recommandations de durcissement d'infrastructure (configurations Docker, AppArmor, WAF) et des approches de test utilisant des frameworks adaptés aux langages. L'ensemble de données adopte une structure conversationnelle en 4 tours reflétant les interactions réelles entre développeurs et IA, escaladant des implémentations de base vers des considérations de sécurité avancées et des conseils de défense en profondeur.
Nos contributions : (1) 1 215 exemples rigoureusement validés répartis en 989 pour l'entraînement, 122 pour la validation et 104 pour les tests, (2) un cadre de validation automatisé assurant la cohérence de l'ensemble de données, (3) une structure conversationnelle en 4 tours capturant les flux de travail de sécurité réalistes, (4) des conseils opérationnels de sécurité complets avec stratégies d'intégration SIEM, (5) une fidélité d'implémentation complète spécifique à chaque langage, et (6) la publication en open source des données, outils de validation et protocoles d'évaluation.
English
AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code).
Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance.
Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.