ChatPaper.aiChatPaper

SecureCode v2.0: Un Dataset di Livello Produttivo per l'Addestramento di Modelli di Generazione di Codice Consapevoli della Sicurezza

SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models

December 20, 2025
Autori: Scott Thornton
cs.AI

Abstract

Gli assistenti AI producono codice vulnerabile nel 45% degli scenari rilevanti per la sicurezza, introducendo difetti nei sistemi di produzione su larga scala. Tuttavia, i dataset esistenti per la codifica sicura sono carenti. Manca loro un ancoraggio a incidenti reali, non forniscono la scala richiesta dall'addestramento moderno e tralasciano il contesto di sicurezza operativa di cui gli sviluppatori hanno bisogno per le distribuzioni in produzione. Presentiamo SecureCode v2.0, un dataset di livello production-grade composto da 1.215 esempi di codifica focalizzati sulla sicurezza che hanno superato la validazione strutturale e una revisione di sicurezza esperta. Ogni esempio è collegato a incidenti di sicurezza reali documentati con riferimenti CVE, fornisce implementazioni vulnerabili e sicure, dimostra attacchi concreti e include linee guida operative per la difesa in profondità. Il dataset copre 11 categorie di vulnerabilità (la completa OWASP Top 10:2025 più le Minacce alla Sicurezza AI/ML) in 11 linguaggi (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin e YAML per l'infrastructure-as-code). Il nostro framework di garanzia della qualità assicura un completo ancoraggio agli incidenti. Ogni esempio include strategie di integrazione SIEM, raccomandazioni per l'hardening dell'infrastruttura (configurazioni Docker, AppArmor, WAF) e approcci di testing utilizzando framework appropriati per il linguaggio. Il dataset utilizza una struttura conversazionale a 4 turni che rispecchia le interazioni reali sviluppatore-AI, passando da implementazioni di base a considerazioni di sicurezza avanzate e linee guida per la difesa in profondità. I nostri contributi: (1) 1.215 esempi convalidati rigorosamente, suddivisi in 989 per il training, 122 per la validazione e 104 per il test, (2) un framework di validazione automatizzato che garantisce la coerenza del dataset, (3) una struttura conversazionale a 4 turni che cattura flussi di lavoro realistici sulla sicurezza, (4) una guida completa alla sicurezza operativa con strategie di integrazione SIEM, (5) una completa fedeltà implementativa specifica per linguaggio e (6) il rilascio open-source di dati, strumenti di validazione e protocolli di benchmarking.
English
AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code). Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance. Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.
PDF11December 24, 2025