ABC-Bench: Avaliação da Codificação Backend com Agentes em Desenvolvimento do Mundo Real

Resumo

A evolução dos Large Language Models (LLMs) para agentes autónomos expandiu o âmbito da codificação por IA, passando da geração de código localizada para a resolução complexa de problemas a nível de repositório e orientada pela execução. No entanto, os *benchmarks* atuais avaliam predominantemente a lógica do código em contextos estáticos, negligenciando os requisitos dinâmicos e de processo completo da engenharia no mundo real, particularmente no desenvolvimento *backend*, que exige uma configuração rigorosa do ambiente e implantação de serviços. Para colmatar esta lacuna, introduzimos o ABC-Bench, um *benchmark* explicitamente concebido para avaliar a codificação *backend* agentiva dentro de um fluxo de trabalho realista e executável. Utilizando um *pipeline* automatizado e escalável, selecionámos 224 tarefas práticas abrangendo 8 linguagens e 19 *frameworks* a partir de repositórios de código aberto. Diferente de avaliações anteriores, o ABC-Bench exige que os agentes gerem todo o ciclo de vida de desenvolvimento, desde a exploração do repositório até à instanciação de serviços em contentores, e que passem nos testes externos de API de ponta a ponta. A nossa avaliação extensiva revela que mesmo os modelos mais avançados têm dificuldade em apresentar um desempenho fiável nestas tarefas holísticas, destacando uma disparidade substancial entre as capacidades atuais dos modelos e as exigências práticas da engenharia *backend*. O nosso código está disponível em https://github.com/OpenMOSS/ABC-Bench.

English

The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.

ABC-Bench: Avaliação da Codificação Backend com Agentes em Desenvolvimento do Mundo Real

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Resumo

Support