CodeClash: Benchmarking zielorientierter Softwareentwicklung
CodeClash: Benchmarking Goal-Oriented Software Engineering
November 2, 2025
papers.authors: John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI
papers.abstract
Aktuelle Benchmarks für Code bewerten Sprachmodelle (LMs) anhand konkreter, klar definierter Aufgaben, wie das Beheben spezifischer Fehler oder das Schreiben gezielter Tests. Menschliche Programmierer verbringen jedoch nicht den ganzen Tag damit, isolierte Aufgaben zu bearbeiten. Stattdessen basiert realistische Softwareentwicklung auf der Verfolgung übergeordneter Ziele, wie der Verbesserung der Nutzerbindung oder der Senkung von Kosten. Die Bewertung, ob LMs ebenfalls in der Lage sind, Code iterativ so zu entwickeln, dass er offene Ziele ohne explizite Anleitung besser erreicht, bleibt eine ungelöste Herausforderung. Um dies anzugehen, stellen wir CodeClash vor, einen Benchmark, bei dem LMs in mehrrundigen Turnieren gegeneinander antreten, um die beste Codebasis zur Erreichung eines wettbewerbsorientierten Ziels zu erstellen. Jede Runde verläuft in zwei Phasen: Agenten bearbeiten ihren Code, dann treten ihre Codebasen in einer Code-Arena direkt gegeneinander an, in der Gewinner anhand von Zielen wie Punktemaximierung, Ressourcenbeschaffung oder Überleben ermittelt werden. Ob sie Notizen schreiben, Dokumentation prüfen, Wettbewerbslogs analysieren oder Test-Suiten erstellen – die Modelle müssen selbst entscheiden, wie sie ihre Codebasen sowohl absolut als auch im Vergleich zu ihren Gegnern verbessern. Wir führten 1680 Turniere (insgesamt 25.200 Runden) durch, um 8 LMs in 6 Arenen zu bewerten. Unsere Ergebnisse zeigen, dass Modelle zwar unterschiedliche Entwicklungsstile aufweisen, aber grundlegende Grenzen im strategischen Denken teilen. Modelle haben auch Schwierigkeiten mit der langfristigen Wartung der Codebasis, da Repositories zunehmend unübersichtlich und redundant werden. Diese Einschränkungen sind deutlich: Top-Modelle verlieren jede Runde gegen erfahrene menschliche Programmierer. Wir veröffentlichen CodeClash als Open Source, um die Erforschung autonomer, zielorientierter Codeentwicklung voranzutreiben.
English
Current benchmarks for coding evaluate language models (LMs) on concrete,
well-specified tasks such as fixing specific bugs or writing targeted tests.
However, human programmers do not spend all day incessantly addressing isolated
tasks. Instead, real-world software development is grounded in the pursuit of
high-level goals, like improving user retention or reducing costs. Evaluating
whether LMs can also iteratively develop code to better accomplish open-ended
objectives without any explicit guidance remains an open challenge. To address
this, we introduce CodeClash, a benchmark where LMs compete in multi-round
tournaments to build the best codebase for achieving a competitive objective.
Each round proceeds in two phases: agents edit their code, then their codebases
compete head-to-head in a code arena that determines winners based on
objectives like score maximization, resource acquisition, or survival. Whether
it's writing notes, scrutinizing documentation, analyzing competition logs, or
creating test suites, models must decide for themselves how to improve their
codebases both absolutely and against their opponents. We run 1680 tournaments
(25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal
that while models exhibit diverse development styles, they share fundamental
limitations in strategic reasoning. Models also struggle with long-term
codebase maintenance, as repositories become progressively messy and redundant.
These limitations are stark: top models lose every round against expert human
programmers. We open-source CodeClash to advance the study of autonomous,
goal-oriented code development.