SlopCodeBench: Evaluación de la Degradación de Agentes de Codificación en Tareas Iterativas de Largo Horizonte
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
March 25, 2026
Autores: Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Frederic Sala, Aws Albarghouthi
cs.AI
Resumen
El desarrollo de software es iterativo, sin embargo, los puntos de referencia (*benchmarks*) de codificación con agentes evalúan abrumadoramente soluciones únicas (*single-shot*) contra especificaciones completas. El código puede pasar la suite de pruebas pero volverse progresivamente más difícil de extender. Los puntos de referencia iterativos recientes intentan cerrar esta brecha, pero constriñen demasiado las decisiones de diseño del agente para medir fielmente cómo la calidad del código moldea las extensiones futuras. Presentamos SlopCodeBench, un punto de referencia independiente del lenguaje que comprende 20 problemas y 93 puntos de control, en el que los agentes extienden repetidamente sus propias soluciones previas bajo especificaciones en evolución que fuerzan decisiones arquitectónicas sin prescribir la estructura interna. Rastreamos dos señales de calidad a nivel de trayectoria: la verbosidad, la fracción de código redundante o duplicado, y la erosión estructural, la proporción de la masa de complejidad concentrada en funciones de alta complejidad. Ningún agente resuelve ningún problema de extremo a extremo en 11 modelos; la tasa de resolución más alta en un punto de control es del 17,2%. La calidad se degrada constantemente: la erosión aumenta en el 80% de las trayectorias y la verbosidad en el 89,8%. En comparación con 48 repositorios de código abierto en Python, el código de los agentes es 2,2 veces más verboso y notablemente más erosionado. El seguimiento de 20 de esos repositorios a lo largo del tiempo muestra que el código humano se mantiene estable, mientras que el código del agente se deteriora con cada iteración. Un estudio de intervención mediante *prompts* muestra que la calidad inicial puede mejorarse, pero esto no detiene la degradación. Estos resultados demuestran que los puntos de referencia basados en tasas de aprobación subestiman sistemáticamente la solidez de las extensiones, y que los agentes actuales carecen de la disciplina de diseño que exige el desarrollo iterativo de software.
English
Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.