A.S.E: AI 생성 코드의 보안 평가를 위한 리포지토리 수준 벤치마크
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
저자: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
초록
소프트웨어 엔지니어링에서 대규모 언어 모델(LLM)의 활용이 증가함에 따라, 이들이 생성한 코드에 대한 엄격한 보안 평가가 필요해졌습니다. 그러나 기존 벤치마크는 고립된 코드 조각에 초점을 맞추고, 재현성이 부족한 불안정한 평가 방법을 사용하며, 입력 컨텍스트의 품질과 출력의 보안성을 연결하지 못하는 등 여러 한계를 보입니다. 이러한 격차를 해결하기 위해, 우리는 리포지토리 수준의 안전한 코드 생성을 위한 벤치마크인 A.S.E(AI Code Generation Security Evaluation)를 소개합니다. A.S.E는 CVE(Common Vulnerabilities and Exposures)가 문서화된 실제 리포지토리에서 작업을 구성하며, 빌드 시스템 및 파일 간 종속성과 같은 전체 리포지토리 컨텍스트를 보존합니다. 재현 가능한 컨테이너화된 평가 프레임워크는 전문가가 정의한 규칙을 사용하여 보안, 빌드 품질 및 생성 안정성에 대한 안정적이고 감사 가능한 평가를 제공합니다. A.S.E에서 주요 LLM을 평가한 결과, 세 가지 주요 발견을 얻었습니다: (1) Claude-3.7-Sonnet이 전반적으로 가장 우수한 성능을 보였습니다. (2) 독점 모델과 오픈소스 모델 간의 보안 격차는 좁으며, Qwen3-235B-A22B-Instruct가 최고 보안 점수를 달성했습니다. (3) 간결하고 "빠른 사고" 디코딩 전략이 복잡하고 "느린 사고" 추론보다 보안 패치에서 일관되게 더 나은 성능을 보였습니다.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.