CodeClash: Evaluación de la Ingeniería de Software Orientada a Objetivos

Resumen

Los puntos de referencia actuales para la codificación evalúan los modelos de lenguaje (LM) en tareas concretas y bien especificadas, como corregir errores específicos o escribir pruebas dirigidas. Sin embargo, los programadores humanos no pasan todo el día abordando incansablemente tareas aisladas. Por el contrario, el desarrollo de software en el mundo real se basa en la búsqueda de objetivos de alto nivel, como mejorar la retención de usuarios o reducir costes. Evaluar si los LM también pueden desarrollar código de forma iterativa para cumplir mejor objetivos abiertos sin ninguna guía explícita sigue siendo un desafío pendiente. Para abordar esto, presentamos CodeClash, un punto de referencia donde los LM compiten en torneos de múltiples rondas para construir la mejor base de código para lograr un objetivo competitivo. Cada ronda procede en dos fases: los agentes editan su código, luego sus bases de código compiten cara a cara en una arena de código que determina a los ganadores en función de objetivos como la maximización de puntuación, la adquisición de recursos o la supervivencia. Ya sea escribiendo notas, escrutando documentación, analizando registros de la competencia o creando suites de pruebas, los modelos deben decidir por sí mismos cómo mejorar sus bases de código, tanto en términos absolutos como frente a sus oponentes. Ejecutamos 1680 torneos (25,200 rondas en total) para evaluar 8 LM en 6 arenas. Nuestros resultados revelan que, si bien los modelos exhiben estilos de desarrollo diversos, comparten limitaciones fundamentales en el razonamiento estratégico. Los modelos también tienen dificultades con el mantenimiento a largo plazo de la base de código, ya que los repositorios se vuelven progresivamente desordenados y redundantes. Estas limitaciones son evidentes: los mejores modelos pierden cada ronda contra programadores humanos expertos. Liberamos CodeClash como código abierto para avanzar en el estudio del desarrollo de código autónomo y orientado a objetivos.

English

Current benchmarks for coding evaluate language models (LMs) on concrete, well-specified tasks such as fixing specific bugs or writing targeted tests. However, human programmers do not spend all day incessantly addressing isolated tasks. Instead, real-world software development is grounded in the pursuit of high-level goals, like improving user retention or reducing costs. Evaluating whether LMs can also iteratively develop code to better accomplish open-ended objectives without any explicit guidance remains an open challenge. To address this, we introduce CodeClash, a benchmark where LMs compete in multi-round tournaments to build the best codebase for achieving a competitive objective. Each round proceeds in two phases: agents edit their code, then their codebases compete head-to-head in a code arena that determines winners based on objectives like score maximization, resource acquisition, or survival. Whether it's writing notes, scrutinizing documentation, analyzing competition logs, or creating test suites, models must decide for themselves how to improve their codebases both absolutely and against their opponents. We run 1680 tournaments (25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal that while models exhibit diverse development styles, they share fundamental limitations in strategic reasoning. Models also struggle with long-term codebase maintenance, as repositories become progressively messy and redundant. These limitations are stark: top models lose every round against expert human programmers. We open-source CodeClash to advance the study of autonomous, goal-oriented code development.

CodeClash: Evaluación de la Ingeniería de Software Orientada a Objetivos

CodeClash: Benchmarking Goal-Oriented Software Engineering

Resumen

Support