AutoCodeBench : Les grands modèles de langage sont des générateurs automatiques de benchmarks de code

papers.abstract

Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans divers domaines, avec la génération de code émergeant comme un domaine clé d'intérêt. Bien que de nombreux benchmarks aient été proposés pour évaluer leurs capacités de génération de code, ces benchmarks présentent plusieurs limitations critiques. Premièrement, ils reposent souvent sur des annotations manuelles, qui sont chronophages et difficiles à mettre à l'échelle pour différents langages de programmation et niveaux de complexité des problèmes. Deuxièmement, la plupart des benchmarks existants se concentrent principalement sur Python, tandis que les rares benchmarks multilingues souffrent d'une difficulté limitée et d'une répartition inégale des langages. Pour relever ces défis, nous proposons AutoCodeGen, une méthode automatisée pour générer des ensembles de données de génération de code multilingues de haute difficulté sans annotations manuelles. AutoCodeGen garantit la correction et l'exhaustivité des cas de test en générant des entrées de test avec des LLMs et en obtenant les sorties de test via un bac à sable multilingue, tout en assurant une qualité élevée des données grâce à la génération de problèmes en ordre inverse et à plusieurs étapes de filtrage. En utilisant cette nouvelle méthode, nous introduisons AutoCodeBench, un benchmark de génération de code à grande échelle comprenant 3 920 problèmes répartis de manière équilibrée sur 20 langages de programmation. Il est spécifiquement conçu pour évaluer les LLMs sur des tâches multilingues difficiles, diversifiées et pratiques. Nous évaluons plus de 30 LLMs open-source et propriétaires de premier plan sur AutoCodeBench et sa version simplifiée AutoCodeBench-Lite. Les résultats montrent que même les LLMs les plus avancés peinent à gérer la complexité, la diversité et le caractère multilingue de ces tâches. Par ailleurs, nous introduisons AutoCodeBench-Complete, spécialement conçu pour les modèles de base afin d'évaluer leurs capacités de génération de code en few-shot. Nous espérons que la série AutoCodeBench servira de ressource précieuse et incitera la communauté à se concentrer sur des scénarios de génération de code multilingues plus difficiles et pratiques.

English

Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, with code generation emerging as a key area of focus. While numerous benchmarks have been proposed to evaluate their code generation abilities, these benchmarks face several critical limitations. First, they often rely on manual annotations, which are time-consuming and difficult to scale across different programming languages and problem complexities. Second, most existing benchmarks focus primarily on Python, while the few multilingual benchmarks suffer from limited difficulty and uneven language distribution. To address these challenges, we propose AutoCodeGen, an automated method for generating high-difficulty multilingual code generation datasets without manual annotations. AutoCodeGen ensures the correctness and completeness of test cases by generating test inputs with LLMs and obtaining test outputs through a multilingual sandbox, while achieving high data quality through reverse-order problem generation and multiple filtering steps. Using this novel method, we introduce AutoCodeBench, a large-scale code generation benchmark comprising 3,920 problems evenly distributed across 20 programming languages. It is specifically designed to evaluate LLMs on challenging, diverse, and practical multilingual tasks. We evaluate over 30 leading open-source and proprietary LLMs on AutoCodeBench and its simplified version AutoCodeBench-Lite. The results show that even the most advanced LLMs struggle with the complexity, diversity, and multilingual nature of these tasks. Besides, we introduce AutoCodeBench-Complete, specifically designed for base models to assess their few-shot code generation capabilities. We hope the AutoCodeBench series will serve as a valuable resource and inspire the community to focus on more challenging and practical multilingual code generation scenarios.

AutoCodeBench : Les grands modèles de langage sont des générateurs automatiques de benchmarks de code

AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

papers.abstract

Support