A.S.E: Een Benchmark op Repositoriumniveau voor het Evalueren van Veiligheid in AI-gegenereerde Code
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
Auteurs: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
Samenvatting
De toenemende adoptie van grote taalmodellen (LLM's) in softwareontwikkeling vereist een grondige beoordeling van de beveiliging van de gegenereerde code. Bestaande benchmarks schieten echter tekort, omdat ze zich richten op geïsoleerde codefragmenten, onstabiele evaluatiemethoden gebruiken die niet reproduceerbaar zijn, en geen verband leggen tussen de kwaliteit van de invoercontext en de beveiliging van de uitvoer. Om deze tekortkomingen aan te pakken, introduceren we A.S.E (AI Code Generation Security Evaluation), een benchmark voor het genereren van veilige code op repository-niveau. A.S.E construeert taken op basis van repositories uit de praktijk met gedocumenteerde CVE's, waarbij de volledige repositorycontext, zoals buildsystemen en afhankelijkheden tussen bestanden, behouden blijft. Het reproduceerbare, gecontaineriseerde evaluatieraamwerk maakt gebruik van door experts gedefinieerde regels om stabiele, controleerbare beoordelingen te geven van beveiliging, bouwkwaliteit en generatiestabiliteit. Onze evaluatie van toonaangevende LLM's op A.S.E onthult drie belangrijke bevindingen: (1) Claude-3.7-Sonnet behaalt de beste algehele prestaties. (2) Het beveiligingsgat tussen propriëtaire en open-source modellen is klein; Qwen3-235B-A22B-Instruct behaalt de hoogste beveiligingsscore. (3) Bondige, "sneldenkende" decodeerstrategieën presteren consistent beter dan complexe, "langzaamdenkende" redeneringen voor het patchen van beveiligingslekken.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.