A.S.E: Um Benchmark em Nível de Repositório para Avaliação de Segurança em Código Gerado por IA
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
Autores: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
Resumo
A crescente adoção de grandes modelos de linguagem (LLMs) na engenharia de software exige uma avaliação rigorosa da segurança do código gerado por eles. No entanto, os benchmarks existentes são inadequados, pois se concentram em trechos de código isolados, empregam métodos de avaliação instáveis que carecem de reprodutibilidade e não conectam a qualidade do contexto de entrada com a segurança da saída. Para abordar essas lacunas, introduzimos o A.S.E (Avaliação de Segurança na Geração de Código por IA), um benchmark para geração segura de código em nível de repositório. O A.S.E constrói tarefas a partir de repositórios do mundo real com CVEs documentados, preservando o contexto completo do repositório, como sistemas de compilação e dependências entre arquivos. Seu framework de avaliação reproduzível e conteinerizado utiliza regras definidas por especialistas para fornecer avaliações estáveis e auditáveis de segurança, qualidade de compilação e estabilidade de geração. Nossa avaliação dos principais LLMs no A.S.E revela três descobertas principais: (1) O Claude-3.7-Sonnet alcança o melhor desempenho geral. (2) A diferença de segurança entre modelos proprietários e de código aberto é estreita; o Qwen3-235B-A22B-Instruct atinge a maior pontuação de segurança. (3) Estratégias de decodificação concisas e de "pensamento rápido" superam consistentemente raciocínios complexos e de "pensamento lento" para correções de segurança.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.