ABC-Bench: Бенчмаркинг агентного бэкенд-программирования в условиях реальной разработки

Аннотация

Эволюция больших языковых моделей (LLM) в автономные агенты расширила сферу применения ИИ для программирования — от генерации локального кода до решения сложных задач на уровне репозитория с выполнением кода. Однако современные бенчмарки в основном оценивают логику кода в статических контекстах, игнорируя динамические требования полного цикла разработки, характерные для реальных инженерных задач, особенно в бэкенд-разработке, где необходимы тщательная настройка окружения и развертывание сервисов. Для устранения этого пробела мы представляем ABC-Bench — бенчмарк, специально разработанный для оценки агентного бэкенд-программирования в рамках реалистичного исполняемого рабочего процесса. С помощью масштабируемого автоматизированного пайплайна мы отобрали 224 практические задачи, охватывающие 8 языков программирования и 19 фреймворков из открытых репозиториев. В отличие от предыдущих оценок, ABC-Bench требует от агентов управления всем жизненным циклом разработки — от изучения репозитория до запуска контейнеризированных сервисов и прохождения внешних сквозных API-тестов. Наши расширенные испытания показывают, что даже передовые модели демонстрируют низкую надежность при выполнении таких комплексных задач, что указывает на значительный разрыв между текущими возможностями моделей и требованиями практической бэкенд-разработки. Наш код доступен по адресу https://github.com/OpenMOSS/ABC-Bench.

English

The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.

ABC-Bench: Бенчмаркинг агентного бэкенд-программирования в условиях реальной разработки

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Аннотация

Support