SecureCode v2.0: Een Productieklasse Dataset voor het Trainen van Veiligheidsbewuste Codegeneratiemodellen
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models
December 20, 2025
Auteurs: Scott Thornton
cs.AI
Samenvatting
AI-assistenten produceren kwetsbare code in 45% van de security-relevante scenario's, waardoor op grote schaal fouten in productiesystemen worden geïntroduceerd. Toch schieten bestaande datasets voor veilig programmeren tekort. Ze missen gronding in incidenten, bieden niet de schaal die moderne training vereist, en ontberen de operationele securitycontext die ontwikkelaars nodig hebben voor productie-implementaties. Wij presenteren SecureCode v2.0, een productieklasse dataset van 1.215 security-gerichte codevoorbeelden die structurele validatie en expert security-review hebben doorstaan.
Elk voorbeeld is gekoppeld aan gedocumenteerde security-incidenten met CVE-referenties, biedt zowel kwetsbare als veilige implementaties, demonstreert concrete aanvallen en omvat *defense-in-depth* operationele richtlijnen. De dataset beslaat 11 kwetsbaarheidscategorieën (de volledige OWASP Top 10:2025 plus AI/ML Security Threats) in 11 talen (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin en YAML voor infrastructure-as-code).
Ons kwaliteitsborgingskader zorgt voor volledige incidentgronding. Elk voorbeeld bevat SIEM-integratiestrategieën, aanbevelingen voor infrastructuurhardening (Docker, AppArmor, WAF-configuraties) en testaanpakken met frameworks die passen bij de programmeertaal. De dataset gebruikt een 4-staps gespreksstructuur die echte ontwikkelaar-AI-interacties nabootst, en escaleert van basisimplementaties naar geavanceerde security-overwegingen en *defense-in-depth* richtlijnen.
Onze bijdragen: (1) 1.215 rigoureus gevalideerde voorbeelden, verdeeld in 989 trainings-, 122 validatie- en 104 testsets, (2) een geautomatiseerd validatiekader dat datasetconsistentie waarborgt, (3) een 4-staps gespreksstructuur die realistische security-workflows vastlegt, (4) uitgebreide operationele security-richtlijnen met SIEM-integratiestrategieën, (5) complete taal-specifieke implementatietrouw, en (6) open-source release van data, validatietools en benchmarkprotocollen.
English
AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code).
Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance.
Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.