CodeClash: Бенчмаркинг целеориентированной разработки программного обеспечения
CodeClash: Benchmarking Goal-Oriented Software Engineering
November 2, 2025
Авторы: John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI
Аннотация
Современные бенчмарки для оценки языковых моделей (ЯМ) в программировании тестируют их на конкретных, четко определенных задачах, таких как исправление определенных ошибок или написание целевых тестов. Однако программисты-люди не проводят весь день, бесконечно решая изолированные задачи. Вместо этого реальная разработка программного обеспечения основана на достижении высокоуровневых целей, таких как повышение удержания пользователей или снижение затрат. Оценка того, способны ли ЯМ также итеративно разрабатывать код для лучшего достижения открытых целей без явных указаний, остается нерешенной проблемой. Для ее решения мы представляем CodeClash — бенчмарк, в котором ЯМ соревнуются в многотуровых турнирах по созданию наилучшей кодовой базы для достижения конкурентной цели. Каждый раунд состоит из двух фаз: агенты редактируют свой код, после чего их кодовая база сталкивается в прямом противостоянии на «арене кода», где победитель определяется на основе таких целей, как максимизация очков, приобретение ресурсов или выживание. Будь то написание заметок, изучение документации, анализ логов соперников или создание тестовых наборов, модели должны самостоятельно решать, как улучшить свою кодовую базу как в абсолютном выражении, так и по отношению к оппонентам. Мы провели 1680 турниров (всего 25 200 раундов) для оценки 8 ЯМ в 6 различных аренах. Наши результаты показывают, что, хотя модели демонстрируют разнообразные стили разработки, они имеют фундаментальные ограничения в стратегическом мышлении. Модели также испытывают трудности с долгосрочным поддержанием кодовой базы, поскольку репозитории постепенно становятся запутанными и избыточными. Эти ограничения очевидны: лучшие модели проигрывают каждый раунд опытным программистам-людям. Мы открываем исходный код CodeClash для продвижения исследований в области автономной, целеориентированной разработки кода.
English
Current benchmarks for coding evaluate language models (LMs) on concrete,
well-specified tasks such as fixing specific bugs or writing targeted tests.
However, human programmers do not spend all day incessantly addressing isolated
tasks. Instead, real-world software development is grounded in the pursuit of
high-level goals, like improving user retention or reducing costs. Evaluating
whether LMs can also iteratively develop code to better accomplish open-ended
objectives without any explicit guidance remains an open challenge. To address
this, we introduce CodeClash, a benchmark where LMs compete in multi-round
tournaments to build the best codebase for achieving a competitive objective.
Each round proceeds in two phases: agents edit their code, then their codebases
compete head-to-head in a code arena that determines winners based on
objectives like score maximization, resource acquisition, or survival. Whether
it's writing notes, scrutinizing documentation, analyzing competition logs, or
creating test suites, models must decide for themselves how to improve their
codebases both absolutely and against their opponents. We run 1680 tournaments
(25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal
that while models exhibit diverse development styles, they share fundamental
limitations in strategic reasoning. Models also struggle with long-term
codebase maintenance, as repositories become progressively messy and redundant.
These limitations are stark: top models lose every round against expert human
programmers. We open-source CodeClash to advance the study of autonomous,
goal-oriented code development.