SecureCode v2.0: 보안 인식 코드 생성 모델 훈련을 위한 프로덕션 등급 데이터셋
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models
December 20, 2025
저자: Scott Thornton
cs.AI
초록
AI 어시스턴트는 보안 관련 시나리오의 45%에서 취약한 코드를 생성하여 대규모로 프로덕션 시스템에 결함을 도입합니다. 그러나 기존의 보안 코딩 데이터셋은 한계를 보입니다. 사고 기반이 부족하고, 현대적 훈련에 필요한 규모를 제공하지 않으며, 개발자가 프로덕션 배포에 필요한 운영 보안 맥락을 누락하고 있습니다. 우리는 구조적 검증과 전문가 보안 검토를 통과한 1,215개의 보안 중심 코딩 예제로 구성된 프로덕션 등급 데이터셋인 SecureCode v2.0을 소개합니다. 모든 예제는 CVE 참조가 포함된 실제 문서화된 보안 사고와 연결되어 있으며, 취약한 구현과 안전한 구현을 제공하고, 구체적인 공격을演示하며, 심층 방어 운영 가이드라인을 포함합니다. 이 데이터셋은 11개 언어(Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin 및 인프라스트럭처-as-code용 YAML)에 걸쳐 11개 취약점 범주(완전한 OWASP Top 10:2025 및 AI/ML 보안 위협 포함)를 다룹니다.
우리의 품질 보증 프레임워크는 완전한 사고 기반을 보장합니다. 각 예제에는 SIEM 통합 전략, 인프라 강화 권장사항(Docker, AppArmor, WAF 구성), 그리고 언어에 적합한 프레임워크를 사용한 테스트 접근법이 포함됩니다. 이 데이터셋은 실제 개발자-AI 상호작용을 반영한 4턴 대화 구조를 사용하여 기본 구현부터 고급 보안 고려사항 및 심층 방어 지침으로 단계적으로 확장됩니다.
우리의 기여점은 다음과 같습니다: (1) 989개 훈련 세트, 122개 검증 세트, 104개 테스트 세트로 구분된 1,215개의 엄격하게 검증된 예제, (2) 데이터셋 일관성을 보장하는 자동화된 검증 프레임워크, (3) 현실적인 보안 워크플로우를 포착하는 4턴 대화 구조, (4) SIEM 통합 전략을 포함한 포괄적인 운영 보안 지침, (5) 완전한 언어별 구현 정확도, (6) 데이터, 검증 도구 및 벤치마킹 프로토콜의 오픈소스 공개.
English
AI assistants produce vulnerable code in 45% of security-relevant scenarios, introducing flaws into production systems at scale. Yet existing secure coding datasets fall short. They lack incident grounding, don't provide the scale modern training requires, and miss the operational security context developers need for production deployments. We present SecureCode v2.0, a production-grade dataset of 1,215 security-focused coding examples that passed structural validation and expert security review. Every example ties to actual documented security incidents with CVE references, provides vulnerable and secure implementations, demonstrates concrete attacks, and includes defense-in-depth operational guidance. The dataset covers 11 vulnerability categories (complete OWASP Top 10:2025 plus AI/ML Security Threats) across 11 languages (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin, and YAML for infrastructure-as-code).
Our quality assurance framework ensures complete incident grounding. Each example includes SIEM integration strategies, infrastructure hardening recommendations (Docker, AppArmor, WAF configurations), and testing approaches using language-appropriate frameworks. The dataset uses a 4-turn conversational structure mirroring actual developer-AI interactions, escalating from basic implementations to advanced security considerations and defense-in-depth guidance.
Our contributions: (1) 1,215 rigorously validated examples split into 989 training, 122 validation, and 104 test sets, (2) an automated validation framework ensuring dataset consistency, (3) a 4-turn conversational structure capturing realistic security workflows, (4) comprehensive operational security guidance with SIEM integration strategies, (5) complete language-specific implementation fidelity, and (6) open-source release of data, validation tools, and benchmarking protocols.