SecureCode v2.0: Um Conjunto de Dados de Grau de Produção para Treinar Modelos de Geração de Código com Consciência de Segurança

Resumo

Os assistentes de IA produzem código vulnerável em 45% dos cenários relevantes para segurança, introduzindo falhas em sistemas de produção em larga escala. No entanto, os conjuntos de dados existentes sobre codificação segura são insuficientes. Eles carecem de fundamentação em incidentes reais, não oferecem a escala necessária para o treinamento moderno e faltam o contexto operacional de segurança que os desenvolvedores precisam para implantações em produção. Apresentamos o SecureCode v2.0, um conjunto de dados de nível de produção com 1.215 exemplos de codificação focados em segurança que passaram por validação estrutural e revisão de segurança especializada. Cada exemplo está vinculado a incidentes de segurança reais documentados com referências a CVE, fornece implementações vulneráveis e seguras, demonstra ataques concretos e inclui orientações operacionais de defesa em profundidade. O conjunto de dados abrange 11 categorias de vulnerabilidades (o OWASP Top 10 completo:2025 mais Ameaças de Segurança de IA/ML) em 11 linguagens (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin e YAML para infraestrutura como código). Nossa estrutura de garantia de qualidade assegura a fundamentação completa em incidentes. Cada exemplo inclui estratégias de integração com SIEM, recomendações de proteção de infraestrutura (configurações de Docker, AppArmor, WAF) e abordagens de teste usando estruturas apropriadas para cada linguagem. O conjunto de dados utiliza uma estrutura conversacional de 4 turnos que espelha as interações reais entre desenvolvedor e IA, evoluindo de implementações básicas para considerações de segurança avançadas e orientações de defesa em profundidade. Nossas contribuições: (1) 1.215 exemplos rigorosamente validados divididos em 989 para treinamento, 122 para validação e 104 para teste, (2) uma estrutura de validação automatizada que garante a consistência do conjunto de dados, (3) uma estrutura conversacional de 4 turnos que captura fluxos de trabalho de segurança realistas, (4) orientação abrangente de segurança operacional com estratégias de integração SIEM, (5) fidelidade completa de implementação específica por linguagem e (6) lançamento em código aberto dos dados, ferramentas de validação e protocolos de benchmark.

English

AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code). Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance. Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.