A.S.E: Ein Repository-Level-Benchmark zur Bewertung der Sicherheit in KI-generiertem Code
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
papers.authors: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
papers.abstract
Die zunehmende Verbreitung großer Sprachmodelle (LLMs) in der Softwareentwicklung erfordert eine rigorose Sicherheitsbewertung des von ihnen generierten Codes. Bestehende Benchmarks sind jedoch unzureichend, da sie sich auf isolierte Codeausschnitte konzentrieren, instabile Bewertungsmethoden verwenden, die nicht reproduzierbar sind, und die Qualität des Eingabekontexts nicht mit der Sicherheit der Ausgabe verbinden. Um diese Lücken zu schließen, stellen wir A.S.E (AI Code Generation Security Evaluation) vor, einen Benchmark für die sichere Codegenerierung auf Repository-Ebene. A.S.E erstellt Aufgaben aus realen Repositories mit dokumentierten CVEs und bewahrt den vollständigen Repository-Kontext wie Build-Systeme und dateiübergreifende Abhängigkeiten. Sein reproduzierbares, containerisiertes Bewertungsframework verwendet von Experten definierte Regeln, um stabile, überprüfbare Bewertungen von Sicherheit, Build-Qualität und Generierungsstabilität zu liefern. Unsere Bewertung führender LLMs auf A.S.E zeigt drei zentrale Erkenntnisse: (1) Claude-3.7-Sonnet erzielt die beste Gesamtleistung. (2) Die Sicherheitslücke zwischen proprietären und Open-Source-Modellen ist gering; Qwen3-235B-A22B-Instruct erreicht die höchste Sicherheitsbewertung. (3) Prägnante, „schnell denkende“ Dekodierungsstrategien übertreffen durchweg komplexe, „langsam denkende“ Ansätze bei der Sicherheitspatching.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.