A.S.E: Репозиторный эталон для оценки безопасности в коде, созданном с использованием ИИ
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
August 25, 2025
Авторы: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
cs.AI
Аннотация
Растущее внедрение больших языковых моделей (LLM) в разработку программного обеспечения требует тщательной оценки безопасности генерируемого ими кода. Однако существующие эталонные тесты недостаточны, так как они сосредоточены на изолированных фрагментах кода, используют нестабильные методы оценки, которые не обеспечивают воспроизводимости, и не связывают качество входного контекста с безопасностью выходного кода. Для устранения этих пробелов мы представляем A.S.E (AI Code Generation Security Evaluation) — эталонный тест для генерации безопасного кода на уровне репозиториев. A.S.E создает задачи на основе реальных репозиториев с задокументированными уязвимостями (CVE), сохраняя полный контекст репозитория, включая системы сборки и межфайловые зависимости. Его воспроизводимая, контейнеризованная система оценки использует экспертно определенные правила для обеспечения стабильных и проверяемых оценок безопасности, качества сборки и стабильности генерации. Наша оценка ведущих LLM на A.S.E выявила три ключевых результата: (1) Claude-3.7-Sonnet демонстрирует наилучшую общую производительность. (2) Разрыв в безопасности между проприетарными и открытыми моделями невелик; Qwen3-235B-A22B-Instruct достигает наивысшего балла по безопасности. (3) Краткие, «быстро мыслящие» стратегии декодирования стабильно превосходят сложные, «медленно мыслящие» подходы для исправления уязвимостей.
English
The increasing adoption of large language models (LLMs) in software
engineering necessitates rigorous security evaluation of their generated code.
However, existing benchmarks are inadequate, as they focus on isolated code
snippets, employ unstable evaluation methods that lack reproducibility, and
fail to connect the quality of input context with the security of the output.
To address these gaps, we introduce A.S.E (AI Code Generation Security
Evaluation), a benchmark for repository-level secure code generation. A.S.E
constructs tasks from real-world repositories with documented CVEs, preserving
full repository context like build systems and cross-file dependencies. Its
reproducible, containerized evaluation framework uses expert-defined rules to
provide stable, auditable assessments of security, build quality, and
generation stability. Our evaluation of leading LLMs on A.S.E reveals three key
findings: (1) Claude-3.7-Sonnet achieves the best overall performance. (2) The
security gap between proprietary and open-source models is narrow;
Qwen3-235B-A22B-Instruct attains the top security score. (3) Concise,
``fast-thinking'' decoding strategies consistently outperform complex,
``slow-thinking'' reasoning for security patching.