A.S.E : Un benchmark au niveau des dépôts pour évaluer la sécurité dans le code généré par l'IA

papers.abstract

L'adoption croissante des grands modèles de langage (LLM) dans le génie logiciel nécessite une évaluation rigoureuse de la sécurité du code qu'ils génèrent. Cependant, les benchmarks existants sont inadéquats, car ils se concentrent sur des extraits de code isolés, utilisent des méthodes d'évaluation instables manquant de reproductibilité, et ne parviennent pas à relier la qualité du contexte d'entrée à la sécurité de la sortie. Pour combler ces lacunes, nous introduisons A.S.E (AI Code Generation Security Evaluation), un benchmark pour la génération sécurisée de code au niveau des dépôts. A.S.E construit des tâches à partir de dépôts réels documentés avec des CVE, en conservant le contexte complet du dépôt, comme les systèmes de construction et les dépendances inter-fichiers. Son cadre d'évaluation reproductible et conteneurisé utilise des règles définies par des experts pour fournir des évaluations stables et auditées de la sécurité, de la qualité de construction et de la stabilité de la génération. Notre évaluation des principaux LLM sur A.S.E révèle trois conclusions clés : (1) Claude-3.7-Sonnet obtient les meilleures performances globales. (2) L'écart de sécurité entre les modèles propriétaires et open-source est étroit ; Qwen3-235B-A22B-Instruct atteint le score de sécurité le plus élevé. (3) Les stratégies de décodage concises et « rapides » surpassent systématiquement les raisonnements complexes et « lents » pour la correction des failles de sécurité.

English

The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks are inadequate, as they focus on isolated code snippets, employ unstable evaluation methods that lack reproducibility, and fail to connect the quality of input context with the security of the output. To address these gaps, we introduce A.S.E (AI Code Generation Security Evaluation), a benchmark for repository-level secure code generation. A.S.E constructs tasks from real-world repositories with documented CVEs, preserving full repository context like build systems and cross-file dependencies. Its reproducible, containerized evaluation framework uses expert-defined rules to provide stable, auditable assessments of security, build quality, and generation stability. Our evaluation of leading LLMs on A.S.E reveals three key findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The security gap between proprietary and open-source models is narrow; Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise, ``fast-thinking'' decoding strategies consistently outperform complex, ``slow-thinking'' reasoning for security patching.

A.S.E : Un benchmark au niveau des dépôts pour évaluer la sécurité dans le code généré par l'IA

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

papers.abstract

Support