CodeClash: Benchmarken van Doelgericht Software Engineering
CodeClash: Benchmarking Goal-Oriented Software Engineering
November 2, 2025
Auteurs: John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI
Samenvatting
Huidige benchmarks voor coderen evalueren taalmodellen (TM'en) op concrete, goed-gespecificeerde taken, zoals het repareren van specifieke bugs of het schrijven van gerichte tests. Menselijke programmeurs besteden echter niet de hele dag aan het onophoudelijk aanpakken van geïsoleerde taken. In plaats daarvan is real-world softwareontwikkeling geworteld in het nastreven van hoogwaardige doelen, zoals het verbeteren van gebruikersretentie of het verlagen van kosten. Het evalueren of TM'en ook iteratief code kunnen ontwikkelen om open-einde doelstellingen beter te bereiken zonder expliciete begeleiding, blijft een open uitdaging. Om dit aan te pakken, introduceren we CodeClash, een benchmark waarin TM'en deelnemen aan meerronde toernooien om de beste codebase te bouwen voor het bereiken van een competitief doel. Elke ronde verloopt in twee fasen: agents bewerken hun code, waarna hun codebases rechtstreeks tegen elkaar strijden in een code-arena die winnaars bepaalt op basis van doelstellingen zoals scoremaximalisatie, resourceverwerving of overleving. Of het nu gaat om het schrijven van notities, het bestuderen van documentatie, het analyseren van competitielogboeken of het creëren van testsuites, modellen moeten zelf beslissen hoe ze hun codebases kunnen verbeteren, zowel absoluut als ten opzichte van hun tegenstanders. We voeren 1680 toernooien uit (in totaal 25.200 rondes) om 8 TM'en te evalueren in 6 arena's. Onze resultaten tonen aan dat hoewel modellen uiteenlopende ontwikkelstijlen vertonen, ze fundamentele beperkingen delen in strategisch redeneren. Modellen hebben ook moeite met het langetermijnonderhoud van codebases, omdat repositories progressief rommelig en redundant worden. Deze beperkingen zijn duidelijk: topmodellen verliezen elke ronde van ervaren menselijke programmeurs. We maken CodeClash open-source om de studie naar autonome, doelgerichte code-ontwikkeling vooruit te helpen.
English
Current benchmarks for coding evaluate language models (LMs) on concrete,
well-specified tasks such as fixing specific bugs or writing targeted tests.
However, human programmers do not spend all day incessantly addressing isolated
tasks. Instead, real-world software development is grounded in the pursuit of
high-level goals, like improving user retention or reducing costs. Evaluating
whether LMs can also iteratively develop code to better accomplish open-ended
objectives without any explicit guidance remains an open challenge. To address
this, we introduce CodeClash, a benchmark where LMs compete in multi-round
tournaments to build the best codebase for achieving a competitive objective.
Each round proceeds in two phases: agents edit their code, then their codebases
compete head-to-head in a code arena that determines winners based on
objectives like score maximization, resource acquisition, or survival. Whether
it's writing notes, scrutinizing documentation, analyzing competition logs, or
creating test suites, models must decide for themselves how to improve their
codebases both absolutely and against their opponents. We run 1680 tournaments
(25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal
that while models exhibit diverse development styles, they share fundamental
limitations in strategic reasoning. Models also struggle with long-term
codebase maintenance, as repositories become progressively messy and redundant.
These limitations are stark: top models lose every round against expert human
programmers. We open-source CodeClash to advance the study of autonomous,
goal-oriented code development.