A.S.E: Een Benchmark op Repositoriumniveau voor het Evalueren van Veiligheid in AI-gegenereerde Code

Samenvatting

De toenemende adoptie van grote taalmodellen (LLM's) in softwareontwikkeling vereist een grondige beoordeling van de beveiliging van de gegenereerde code. Bestaande benchmarks schieten echter tekort, omdat ze zich richten op geïsoleerde codefragmenten, onstabiele evaluatiemethoden gebruiken die niet reproduceerbaar zijn, en geen verband leggen tussen de kwaliteit van de invoercontext en de beveiliging van de uitvoer. Om deze tekortkomingen aan te pakken, introduceren we A.S.E (AI Code Generation Security Evaluation), een benchmark voor het genereren van veilige code op repository-niveau. A.S.E construeert taken op basis van repositories uit de praktijk met gedocumenteerde CVE's, waarbij de volledige repositorycontext, zoals buildsystemen en afhankelijkheden tussen bestanden, behouden blijft. Het reproduceerbare, gecontaineriseerde evaluatieraamwerk maakt gebruik van door experts gedefinieerde regels om stabiele, controleerbare beoordelingen te geven van beveiliging, bouwkwaliteit en generatiestabiliteit. Onze evaluatie van toonaangevende LLM's op A.S.E onthult drie belangrijke bevindingen: (1) Claude-3.7-Sonnet behaalt de beste algehele prestaties. (2) Het beveiligingsgat tussen propriëtaire en open-source modellen is klein; Qwen3-235B-A22B-Instruct behaalt de hoogste beveiligingsscore. (3) Bondige, "sneldenkende" decodeerstrategieën presteren consistent beter dan complexe, "langzaamdenkende" redeneringen voor het patchen van beveiligingslekken.

English

The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks are inadequate, as they focus on isolated code snippets, employ unstable evaluation methods that lack reproducibility, and fail to connect the quality of input context with the security of the output. To address these gaps, we introduce A.S.E (AI Code Generation Security Evaluation), a benchmark for repository-level secure code generation. A.S.E constructs tasks from real-world repositories with documented CVEs, preserving full repository context like build systems and cross-file dependencies. Its reproducible, containerized evaluation framework uses expert-defined rules to provide stable, auditable assessments of security, build quality, and generation stability. Our evaluation of leading LLMs on A.S.E reveals three key findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The security gap between proprietary and open-source models is narrow; Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise, ``fast-thinking'' decoding strategies consistently outperform complex, ``slow-thinking'' reasoning for security patching.

A.S.E: Een Benchmark op Repositoriumniveau voor het Evalueren van Veiligheid in AI-gegenereerde Code

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Samenvatting

Support