A.S.E: Un punto de referencia a nivel de repositorio para evaluar la seguridad en código generado por IA

Resumen

La creciente adopción de modelos de lenguaje de gran escala (LLMs) en la ingeniería de software requiere una evaluación rigurosa de la seguridad del código que generan. Sin embargo, los puntos de referencia existentes son insuficientes, ya que se centran en fragmentos de código aislados, emplean métodos de evaluación inestables que carecen de reproducibilidad y no logran conectar la calidad del contexto de entrada con la seguridad de la salida. Para abordar estas brechas, presentamos A.S.E (Evaluación de Seguridad en la Generación de Código con IA), un punto de referencia para la generación segura de código a nivel de repositorio. A.S.E construye tareas a partir de repositorios del mundo real con CVEs documentados, preservando el contexto completo del repositorio, como sistemas de compilación y dependencias entre archivos. Su marco de evaluación reproducible y contenerizado utiliza reglas definidas por expertos para proporcionar evaluaciones estables y auditables de seguridad, calidad de compilación y estabilidad de la generación. Nuestra evaluación de los principales LLMs en A.S.E revela tres hallazgos clave: (1) Claude-3.7-Sonnet logra el mejor rendimiento general. (2) La brecha de seguridad entre los modelos propietarios y los de código abierto es estrecha; Qwen3-235B-A22B-Instruct obtiene la puntuación de seguridad más alta. (3) Las estrategias de decodificación concisas y de "pensamiento rápido" superan consistentemente a los razonamientos complejos y de "pensamiento lento" para la aplicación de parches de seguridad.

English

The increasing adoption of large language models (LLMs) in software engineering necessitates rigorous security evaluation of their generated code. However, existing benchmarks are inadequate, as they focus on isolated code snippets, employ unstable evaluation methods that lack reproducibility, and fail to connect the quality of input context with the security of the output. To address these gaps, we introduce A.S.E (AI Code Generation Security Evaluation), a benchmark for repository-level secure code generation. A.S.E constructs tasks from real-world repositories with documented CVEs, preserving full repository context like build systems and cross-file dependencies. Its reproducible, containerized evaluation framework uses expert-defined rules to provide stable, auditable assessments of security, build quality, and generation stability. Our evaluation of leading LLMs on A.S.E reveals three key findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The security gap between proprietary and open-source models is narrow; Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise, ``fast-thinking'' decoding strategies consistently outperform complex, ``slow-thinking'' reasoning for security patching.

A.S.E: Un punto de referencia a nivel de repositorio para evaluar la seguridad en código generado por IA

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Resumen

Support