AutoCodeBench : Les grands modèles de langage sont des générateurs automatiques de benchmarks de code
AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators
August 12, 2025
papers.authors: Jason Chou, Ao Liu, Yuchi Deng, Zhiying Zeng, Tao Zhang, Haotian Zhu, Jianwei Cai, Yue Mao, Chenchen Zhang, Lingyun Tan, Ziyan Xu, Bohui Zhai, Hengyi Liu, Speed Zhu, Wiggin Zhou, Fengzong Lian
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans divers domaines, avec la génération de code émergeant comme un domaine clé d'intérêt. Bien que de nombreux benchmarks aient été proposés pour évaluer leurs capacités de génération de code, ces benchmarks présentent plusieurs limitations critiques. Premièrement, ils reposent souvent sur des annotations manuelles, qui sont chronophages et difficiles à mettre à l'échelle pour différents langages de programmation et niveaux de complexité des problèmes. Deuxièmement, la plupart des benchmarks existants se concentrent principalement sur Python, tandis que les rares benchmarks multilingues souffrent d'une difficulté limitée et d'une répartition inégale des langages. Pour relever ces défis, nous proposons AutoCodeGen, une méthode automatisée pour générer des ensembles de données de génération de code multilingues de haute difficulté sans annotations manuelles. AutoCodeGen garantit la correction et l'exhaustivité des cas de test en générant des entrées de test avec des LLMs et en obtenant les sorties de test via un bac à sable multilingue, tout en assurant une qualité élevée des données grâce à la génération de problèmes en ordre inverse et à plusieurs étapes de filtrage. En utilisant cette nouvelle méthode, nous introduisons AutoCodeBench, un benchmark de génération de code à grande échelle comprenant 3 920 problèmes répartis de manière équilibrée sur 20 langages de programmation. Il est spécifiquement conçu pour évaluer les LLMs sur des tâches multilingues difficiles, diversifiées et pratiques. Nous évaluons plus de 30 LLMs open-source et propriétaires de premier plan sur AutoCodeBench et sa version simplifiée AutoCodeBench-Lite. Les résultats montrent que même les LLMs les plus avancés peinent à gérer la complexité, la diversité et le caractère multilingue de ces tâches. Par ailleurs, nous introduisons AutoCodeBench-Complete, spécialement conçu pour les modèles de base afin d'évaluer leurs capacités de génération de code en few-shot. Nous espérons que la série AutoCodeBench servira de ressource précieuse et incitera la communauté à se concentrer sur des scénarios de génération de code multilingues plus difficiles et pratiques.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across
various domains, with code generation emerging as a key area of focus. While
numerous benchmarks have been proposed to evaluate their code generation
abilities, these benchmarks face several critical limitations. First, they
often rely on manual annotations, which are time-consuming and difficult to
scale across different programming languages and problem complexities. Second,
most existing benchmarks focus primarily on Python, while the few multilingual
benchmarks suffer from limited difficulty and uneven language distribution. To
address these challenges, we propose AutoCodeGen, an automated method for
generating high-difficulty multilingual code generation datasets without manual
annotations. AutoCodeGen ensures the correctness and completeness of test cases
by generating test inputs with LLMs and obtaining test outputs through a
multilingual sandbox, while achieving high data quality through reverse-order
problem generation and multiple filtering steps. Using this novel method, we
introduce AutoCodeBench, a large-scale code generation benchmark comprising
3,920 problems evenly distributed across 20 programming languages. It is
specifically designed to evaluate LLMs on challenging, diverse, and practical
multilingual tasks. We evaluate over 30 leading open-source and proprietary
LLMs on AutoCodeBench and its simplified version AutoCodeBench-Lite. The
results show that even the most advanced LLMs struggle with the complexity,
diversity, and multilingual nature of these tasks. Besides, we introduce
AutoCodeBench-Complete, specifically designed for base models to assess their
few-shot code generation capabilities. We hope the AutoCodeBench series will
serve as a valuable resource and inspire the community to focus on more
challenging and practical multilingual code generation scenarios.