SecureCode v2.0: Un Conjunto de Datos de Grado de Producción para Entrenar Modelos de Generación de Código con Conciencia de Seguridad
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models
December 20, 2025
Autores: Scott Thornton
cs.AI
Resumen
Los asistentes de IA producen código vulnerable en el 45% de los escenarios relevantes para la seguridad, introduciendo fallos en los sistemas de producción a gran escala. Sin embargo, los conjuntos de datos existentes sobre codificación segura son insuficientes. Carecen de base en incidentes reales, no proporcionan la escala que requiere el entrenamiento moderno y omiten el contexto operativo de seguridad que los desarrolladores necesitan para los despliegues en producción. Presentamos SecureCode v2.0, un conjunto de datos de grado productivo con 1.215 ejemplos de codificación centrados en la seguridad que superaron la validación estructural y la revisión de expertos en seguridad. Cada ejemplo está vinculado a incidentes de seguridad reales documentados con referencias CVE, proporciona implementaciones vulnerables y seguras, demuestra ataques concretos e incluye orientación operativa de defensa en profundidad. El conjunto de datos cubre 11 categorías de vulnerabilidades (el OWASP Top 10:2025 completo más Amenazas de Seguridad en IA/ML) en 11 lenguajes (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin y YAML para infraestructura como código).
Nuestro marco de garantía de calidad asegura una base completa en incidentes reales. Cada ejemplo incluye estrategias de integración con SIEM, recomendaciones de endurecimiento de infraestructura (configuraciones de Docker, AppArmor, WAF) y enfoques de prueba utilizando frameworks apropiados para cada lenguaje. El conjunto de datos utiliza una estructura conversacional de 4 turnos que refleja las interacciones reales entre desarrolladores e IA, escalando desde implementaciones básicas hasta consideraciones de seguridad avanzadas y guía de defensa en profundidad.
Nuestras contribuciones: (1) 1.215 ejemplos rigurosamente validados divididos en 989 para entrenamiento, 122 para validación y 104 para pruebas, (2) un marco de validación automatizado que asegura la consistencia del conjunto de datos, (3) una estructura conversacional de 4 turnos que captura flujos de trabajo de seguridad realistas, (4) orientación operativa de seguridad integral con estrategias de integración SIEM, (5) fidelidad completa de implementación específica del lenguaje, y (6) publicación de código abierto de los datos, herramientas de validación y protocolos de evaluación comparativa.
English
AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code).
Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance.
Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.