CodeClash : Évaluation comparative du génie logiciel orienté objectifs
CodeClash: Benchmarking Goal-Oriented Software Engineering
November 2, 2025
papers.authors: John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI
papers.abstract
Les évaluations actuelles en programmation testent les modèles de langage (ML) sur des tâches concrètes et bien définies, comme corriger des bogues spécifiques ou écrire des tests ciblés. Cependant, les programmeurs humains ne passent pas leurs journées à résoudre incessamment des tâches isolées. Au contraire, le développement logiciel réel s’ancre dans la poursuite d’objectifs de haut niveau, tels qu’améliorer la rétention des utilisateurs ou réduire les coûts. Évaluer si les ML peuvent également développer du code de manière itérative pour mieux atteindre des objectifs ouverts, sans guidance explicite, reste un défi non résolu. Pour y remédier, nous présentons CodeClash, un benchmark où des ML s’affrontent dans des tournois en plusieurs rounds pour construire la base de code la plus performante afin d’atteindre un objectif compétitif. Chaque round se déroule en deux phases : les agents modifient leur code, puis leurs bases de code s’affrontent directement dans une arène de code qui détermine les gagnants selon des objectifs tels que la maximisation de score, l’acquisition de ressources ou la survie. Qu’il s’agisse de prendre des notes, d’examiner la documentation, d’analyser les logs des compétitions ou de créer des suites de tests, les modèles doivent décider par eux-mêmes comment améliorer leurs bases de code, à la fois en absolu et par rapport à leurs adversaires. Nous avons exécuté 1680 tournois (soit 25 200 rounds au total) pour évaluer 8 ML sur 6 arènes différentes. Nos résultats révèlent que si les modèles présentent des styles de développement variés, ils partagent des limitations fondamentales en raisonnement stratégique. Les modèles éprouvent également des difficultés à maintenir leur base de code sur le long terme, les dépôts devenant progressivement désorganisés et redondants. Ces limitations sont frappantes : les meilleurs modèles perdent systématiquement contre des programmeurs humains experts. Nous ouvrons CodeClash en open source pour faire progresser l’étude du développement autonome de code orienté par objectifs.
English
Current benchmarks for coding evaluate language models (LMs) on concrete,
well-specified tasks such as fixing specific bugs or writing targeted tests.
However, human programmers do not spend all day incessantly addressing isolated
tasks. Instead, real-world software development is grounded in the pursuit of
high-level goals, like improving user retention or reducing costs. Evaluating
whether LMs can also iteratively develop code to better accomplish open-ended
objectives without any explicit guidance remains an open challenge. To address
this, we introduce CodeClash, a benchmark where LMs compete in multi-round
tournaments to build the best codebase for achieving a competitive objective.
Each round proceeds in two phases: agents edit their code, then their codebases
compete head-to-head in a code arena that determines winners based on
objectives like score maximization, resource acquisition, or survival. Whether
it's writing notes, scrutinizing documentation, analyzing competition logs, or
creating test suites, models must decide for themselves how to improve their
codebases both absolutely and against their opponents. We run 1680 tournaments
(25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal
that while models exhibit diverse development styles, they share fundamental
limitations in strategic reasoning. Models also struggle with long-term
codebase maintenance, as repositories become progressively messy and redundant.
These limitations are stark: top models lose every round against expert human
programmers. We open-source CodeClash to advance the study of autonomous,
goal-oriented code development.