CodeClash: Avaliação Comparativa de Engenharia de Software Orientada a Objetivos
CodeClash: Benchmarking Goal-Oriented Software Engineering
November 2, 2025
Autores: John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI
Resumo
Os benchmarks atuais para codificação avaliam modelos de linguagem (LMs) em tarefas concretas e bem especificadas, como corrigir bugs específicos ou escrever testes direcionados. No entanto, programadores humanos não passam o dia todo a resolver incessantemente tarefas isoladas. Pelo contrário, o desenvolvimento de software no mundo real está ancorado na prossecução de objetivos de alto nível, como melhorar a retenção de utilizadores ou reduzir custos. Avaliar se os LMs também podem desenvolver código de forma iterativa para melhor cumprir objetivos abertos, sem qualquer orientação explícita, continua a ser um desafio em aberto. Para resolver isto, apresentamos o CodeClash, um benchmark onde os LMs competem em torneios de várias rondas para construir a melhor base de código para alcançar um objetivo competitivo.
Cada ronda decorre em duas fases: os agentes editam o seu código e, em seguida, as suas bases de código competem diretamente numa arena de código que determina os vencedores com base em objetivos como maximização de pontuação, aquisição de recursos ou sobrevivência. Quer seja a escrever notas, a examinar documentação, a analisar registos de competição ou a criar conjuntos de testes, os modelos devem decidir por si próprios como melhorar as suas bases de código, tanto em termos absolutos como face aos seus oponentes. Executámos 1680 torneios (25.200 rondas no total) para avaliar 8 LMs em 6 arenas. Os nossos resultados revelam que, embora os modelos exibam estilos de desenvolvimento diversos, partilham limitações fundamentais no raciocínio estratégico. Os modelos também lutam com a manutenção a longo prazo da base de código, uma vez que os repositórios se tornam progressivamente confusos e redundantes. Estas limitações são severas: os melhores modelos perdem todas as rondas contra programadores humanos especializados. Disponibilizamos o CodeClash como código aberto para avançar o estudo do desenvolvimento de código autónomo e orientado a objetivos.
English
Current benchmarks for coding evaluate language models (LMs) on concrete,
well-specified tasks such as fixing specific bugs or writing targeted tests.
However, human programmers do not spend all day incessantly addressing isolated
tasks. Instead, real-world software development is grounded in the pursuit of
high-level goals, like improving user retention or reducing costs. Evaluating
whether LMs can also iteratively develop code to better accomplish open-ended
objectives without any explicit guidance remains an open challenge. To address
this, we introduce CodeClash, a benchmark where LMs compete in multi-round
tournaments to build the best codebase for achieving a competitive objective.
Each round proceeds in two phases: agents edit their code, then their codebases
compete head-to-head in a code arena that determines winners based on
objectives like score maximization, resource acquisition, or survival. Whether
it's writing notes, scrutinizing documentation, analyzing competition logs, or
creating test suites, models must decide for themselves how to improve their
codebases both absolutely and against their opponents. We run 1680 tournaments
(25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal
that while models exhibit diverse development styles, they share fundamental
limitations in strategic reasoning. Models also struggle with long-term
codebase maintenance, as repositories become progressively messy and redundant.
These limitations are stark: top models lose every round against expert human
programmers. We open-source CodeClash to advance the study of autonomous,
goal-oriented code development.