SecureCode v2.0: Ein produktionsreifer Datensatz zum Training sicherheitsbewusster Code-Generierungsmodelle

papers.abstract

KI-Assistenten erzeugen in 45 % der sicherheitsrelevanten Szenarien anfälligen Code und führen so in großem Umfang Schwachstellen in Produktivsysteme ein. Bisherige Datensätze für sicheres Programmieren sind jedoch unzureichend. Ihnen fehlt die Verankerung in realen Vorfällen, sie bieten nicht den für modernes Training erforderlichen Umfang und vermissen den betrieblichen Sicherheitskontext, den Entwickler für Produktivumgebungen benötigen. Wir stellen SecureCode v2.0 vor, einen produktionsreifen Datensatz mit 1.215 sicherheitsfokussierten Codebeispielen, die eine strukturelle Validierung und eine expertengeprüfte Sicherheitsüberprüfung bestanden haben. Jedes Beispiel ist mit tatsächlich dokumentierten Sicherheitsvorfällen (inklusive CVE-Referenzen) verknüpft, bietet anfällige und sichere Implementierungen, demonstriert konkrete Angriffe und enthält eine tiefengestaffelte operative Anleitung zur Verteidigung (Defense-in-Depth). Der Datensatz deckt 11 Schwachstellenkategorien ab (das vollständige OWASP Top 10:2025 plus KI/ML-Sicherheitsbedrohungen) über 11 Sprachen hinweg (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin und YAML für Infrastructure-as-Code). Unser Qualitätssicherungsrahmen gewährleistet eine vollständige Verankerung in Vorfällen. Jedes Beispiel umfasst SIEM-Integrationsstrategien, Empfehlungen zur Infrastrukturhärtung (Docker, AppArmor, WAF-Konfigurationen) und Testansätze mit sprachspezifischen Frameworks. Der Datensatz verwendet eine 4-Schritte-Konversationsstruktur, die reale Entwickler-KI-Interaktionen abbildet und von grundlegenden Implementierungen zu erweiterten Sicherheitsüberlegungen und tiefengestaffelter Verteidigungsanleitung eskaliert. Unsere Beiträge: (1) 1.215 rigoros validierte Beispiele, aufgeteilt in 989 Trainings-, 122 Validierungs- und 104 Testdatensätze, (2) ein automatisiertes Validierungsframework zur Sicherstellung der Datensatzkonsistenz, (3) eine 4-Schritte-Konversationsstruktur, die realistische Sicherheits-Workflows erfasst, (4) umfassende operative Sicherheitsanleitung mit SIEM-Integrationsstrategien, (5) vollständige sprachspezifische Implementierungstreue und (6) Open-Source-Veröffentlichung der Daten, Validierungstools und Benchmarking-Protokolle.

English

AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code). Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance. Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.

SecureCode v2.0: Ein produktionsreifer Datensatz zum Training sicherheitsbewusster Code-Generierungsmodelle

SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models

papers.abstract

Support