A.S.E: Un Benchmark a Livello di Repository per Valutare la Sicurezza nel Codice Generato dall'Intelligenza Artificiale

Abstract

La crescente adozione di modelli linguistici di grandi dimensioni (LLM) nell'ingegneria del software rende necessaria una rigorosa valutazione della sicurezza del codice da essi generato. Tuttavia, i benchmark esistenti sono inadeguati, poiché si concentrano su frammenti di codice isolati, utilizzano metodi di valutazione instabili che mancano di riproducibilità e non collegano la qualità del contesto di input con la sicurezza dell'output. Per colmare queste lacune, introduciamo A.S.E (AI Code Generation Security Evaluation), un benchmark per la generazione sicura di codice a livello di repository. A.S.E costruisce task partendo da repository reali con CVE documentati, preservando il contesto completo del repository come i sistemi di build e le dipendenze tra file. Il suo framework di valutazione riproducibile e containerizzato utilizza regole definite da esperti per fornire valutazioni stabili e verificabili della sicurezza, della qualità della build e della stabilità della generazione. La nostra valutazione dei principali LLM su A.S.E rivela tre risultati chiave: (1) Claude-3.7-Sonnet ottiene le migliori prestazioni complessive. (2) Il divario di sicurezza tra modelli proprietari e open-source è ridotto; Qwen3-235B-A22B-Instruct raggiunge il punteggio di sicurezza più alto. (3) Strategie di decodifica concise e "a pensiero veloce" superano costantemente ragionamenti complessi e "a pensiero lento" per l'applicazione di patch di sicurezza.

English

The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks are inadequate, as they focus on isolated code snippets, employ unstable evaluation methods that lack reproducibility, and fail to connect the quality of input context with the security of the output. To address these gaps, we introduce A.S.E (AI Code Generation Security Evaluation), a benchmark for repository-level secure code generation. A.S.E constructs tasks from real-world repositories with documented CVEs, preserving full repository context like build systems and cross-file dependencies. Its reproducible, containerized evaluation framework uses expert-defined rules to provide stable, auditable assessments of security, build quality, and generation stability. Our evaluation of leading LLMs on A.S.E reveals three key findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The security gap between proprietary and open-source models is narrow; Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise, ``fast-thinking'' decoding strategies consistently outperform complex, ``slow-thinking'' reasoning for security patching.

A.S.E: Un Benchmark a Livello di Repository per Valutare la Sicurezza nel Codice Generato dall'Intelligenza Artificiale

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Abstract

Support