A.S.E: Un punto de referencia a nivel de repositorio para evaluar la seguridad en código generado por IA
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
Autores: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
Resumen
La creciente adopción de modelos de lenguaje de gran escala (LLMs) en la ingeniería de software requiere una evaluación rigurosa de la seguridad del código que generan. Sin embargo, los puntos de referencia existentes son insuficientes, ya que se centran en fragmentos de código aislados, emplean métodos de evaluación inestables que carecen de reproducibilidad y no logran conectar la calidad del contexto de entrada con la seguridad de la salida. Para abordar estas brechas, presentamos A.S.E (Evaluación de Seguridad en la Generación de Código con IA), un punto de referencia para la generación segura de código a nivel de repositorio. A.S.E construye tareas a partir de repositorios del mundo real con CVEs documentados, preservando el contexto completo del repositorio, como sistemas de compilación y dependencias entre archivos. Su marco de evaluación reproducible y contenerizado utiliza reglas definidas por expertos para proporcionar evaluaciones estables y auditables de seguridad, calidad de compilación y estabilidad de la generación. Nuestra evaluación de los principales LLMs en A.S.E revela tres hallazgos clave: (1) Claude-3.7-Sonnet logra el mejor rendimiento general. (2) La brecha de seguridad entre los modelos propietarios y los de código abierto es estrecha; Qwen3-235B-A22B-Instruct obtiene la puntuación de seguridad más alta. (3) Las estrategias de decodificación concisas y de "pensamiento rápido" superan consistentemente a los razonamientos complejos y de "pensamiento lento" para la aplicación de parches de seguridad.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.