ABC-Bench: Het benchmarken van agentgestuurde backendcodering in realistische ontwikkelomgevingen

Samenvatting

De evolutie van Large Language Models (LLM's) naar autonome agents heeft de reikwijdte van AI-codering uitgebreid van lokale codegeneratie naar complexe, repository-brede en uitvoeringsgedreven probleemoplossing. Huidige benchmarks evalueren echter voornamelijk codelogica in statische contexten, waarbij de dynamische, volledige-proces vereisten van echte engineering worden verwaarloosd. Dit is met name problematisch in backend-ontwikkeling, die rigoureuze omgevingsconfiguratie en servicedeployments vereist. Om deze leemte te adresseren, introduceren wij ABC-Bench, een benchmark die expliciet is ontworpen om agent-gestuurde backend-codering te evalueren binnen een realistische, uitvoerbare workflow. Met behulp van een schaalbare geautomatiseerde pijplijn hebben wij 224 praktische taken samengesteld, verspreid over 8 programmeertalen en 19 frameworks, afkomstig uit open-source repositories. In tegenstelling tot eerdere evaluaties, vereist ABC-Bench dat de agents de volledige ontwikkelingslevenscyclus beheren – van repository-verkenning tot het instantiëren van gecontaineriseerde services – en dat zij externe end-to-end API-tests doorstaan. Onze uitgebreide evaluatie toont aan dat zelfs state-of-the-art modellen moeite hebben om betrouwbare prestaties te leveren bij deze holistische taken, wat een aanzienlijke kloof benadrukt tussen de huidige modelcapaciteiten en de eisen van praktische backend-engineering. Onze code is beschikbaar op https://github.com/OpenMOSS/ABC-Bench.

English

The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.

ABC-Bench: Het benchmarken van agentgestuurde backendcodering in realistische ontwikkelomgevingen

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Samenvatting

Support