ChatPaper.aiChatPaper

AutoCodeBench: Modelos de Linguagem de Grande Escala são Geradores Automáticos de Benchmarks de Código

AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

August 12, 2025
Autores: Jason Chou, Ao Liu, Yuchi Deng, Zhiying Zeng, Tao Zhang, Haotian Zhu, Jianwei Cai, Yue Mao, Chenchen Zhang, Lingyun Tan, Ziyan Xu, Bohui Zhai, Hengyi Liu, Speed Zhu, Wiggin Zhou, Fengzong Lian
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversos domínios, com a geração de código emergindo como uma área-chave de foco. Embora diversos benchmarks tenham sido propostos para avaliar suas habilidades de geração de código, esses benchmarks enfrentam várias limitações críticas. Primeiro, eles frequentemente dependem de anotações manuais, que são demoradas e difíceis de escalar para diferentes linguagens de programação e complexidades de problemas. Segundo, a maioria dos benchmarks existentes foca principalmente em Python, enquanto os poucos benchmarks multilíngues sofrem com dificuldade limitada e distribuição desigual de linguagens. Para abordar esses desafios, propomos o AutoCodeGen, um método automatizado para gerar conjuntos de dados de geração de código multilíngue de alta dificuldade sem anotações manuais. O AutoCodeGen garante a correção e completude dos casos de teste ao gerar entradas de teste com LLMs e obter saídas de teste por meio de um sandbox multilíngue, enquanto alcança alta qualidade de dados através da geração de problemas em ordem reversa e múltiplas etapas de filtragem. Usando esse método inovador, introduzimos o AutoCodeBench, um benchmark de geração de código em larga escala composto por 3.920 problemas distribuídos uniformemente em 20 linguagens de programação. Ele foi especificamente projetado para avaliar LLMs em tarefas multilíngues desafiadoras, diversas e práticas. Avaliamos mais de 30 LLMs líderes, tanto de código aberto quanto proprietários, no AutoCodeBench e em sua versão simplificada, o AutoCodeBench-Lite. Os resultados mostram que mesmo os LLMs mais avançados têm dificuldades com a complexidade, diversidade e natureza multilíngue dessas tarefas. Além disso, introduzimos o AutoCodeBench-Complete, especificamente projetado para modelos base, a fim de avaliar suas capacidades de geração de código em poucos exemplos. Esperamos que a série AutoCodeBench sirva como um recurso valioso e inspire a comunidade a focar em cenários de geração de código multilíngue mais desafiadores e práticos.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, with code generation emerging as a key area of focus. While numerous benchmarks have been proposed to evaluate their code generation abilities, these benchmarks face several critical limitations. First, they often rely on manual annotations, which are time-consuming and difficult to scale across different programming languages and problem complexities. Second, most existing benchmarks focus primarily on Python, while the few multilingual benchmarks suffer from limited difficulty and uneven language distribution. To address these challenges, we propose AutoCodeGen, an automated method for generating high-difficulty multilingual code generation datasets without manual annotations. AutoCodeGen ensures the correctness and completeness of test cases by generating test inputs with LLMs and obtaining test outputs through a multilingual sandbox, while achieving high data quality through reverse-order problem generation and multiple filtering steps. Using this novel method, we introduce AutoCodeBench, a large-scale code generation benchmark comprising 3,920 problems evenly distributed across 20 programming languages. It is specifically designed to evaluate LLMs on challenging, diverse, and practical multilingual tasks. We evaluate over 30 leading open-source and proprietary LLMs on AutoCodeBench and its simplified version AutoCodeBench-Lite. The results show that even the most advanced LLMs struggle with the complexity, diversity, and multilingual nature of these tasks. Besides, we introduce AutoCodeBench-Complete, specifically designed for base models to assess their few-shot code generation capabilities. We hope the AutoCodeBench series will serve as a valuable resource and inspire the community to focus on more challenging and practical multilingual code generation scenarios.
PDF75August 13, 2025