A.S.E: Un Benchmark a Livello di Repository per Valutare la Sicurezza nel Codice Generato dall'Intelligenza Artificiale
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
Autori: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
Abstract
La crescente adozione di modelli linguistici di grandi dimensioni (LLM) nell'ingegneria del software rende necessaria una rigorosa valutazione della sicurezza del codice da essi generato. Tuttavia, i benchmark esistenti sono inadeguati, poiché si concentrano su frammenti di codice isolati, utilizzano metodi di valutazione instabili che mancano di riproducibilità e non collegano la qualità del contesto di input con la sicurezza dell'output. Per colmare queste lacune, introduciamo A.S.E (AI Code Generation Security Evaluation), un benchmark per la generazione sicura di codice a livello di repository. A.S.E costruisce task partendo da repository reali con CVE documentati, preservando il contesto completo del repository come i sistemi di build e le dipendenze tra file. Il suo framework di valutazione riproducibile e containerizzato utilizza regole definite da esperti per fornire valutazioni stabili e verificabili della sicurezza, della qualità della build e della stabilità della generazione. La nostra valutazione dei principali LLM su A.S.E rivela tre risultati chiave: (1) Claude-3.7-Sonnet ottiene le migliori prestazioni complessive. (2) Il divario di sicurezza tra modelli proprietari e open-source è ridotto; Qwen3-235B-A22B-Instruct raggiunge il punteggio di sicurezza più alto. (3) Strategie di decodifica concise e "a pensiero veloce" superano costantemente ragionamenti complessi e "a pensiero lento" per l'applicazione di patch di sicurezza.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.