SlopCodeBench: Benchmark delle Prestazioni Degradanti degli Agenti di Codifica in Compiti Iterativi a Lungo Termine

Abstract

Lo sviluppo software è iterativo, eppure i benchmark di programmazione agentica valutano in modo schiacciante soluzioni one-shot rispetto a specifiche complete. Il codice può superare la suite di test ma diventare progressivamente più difficile da estendere. I recenti benchmark iterativi tentano di colmare questa lacuna, ma vincolano troppo strettamente le decisioni di progettazione dell'agente per misurare fedelmente come la qualità del codice modelli le estensioni future. Introduciamo SlopCodeBench, un benchmark language-agnostic che comprende 20 problemi e 93 checkpoint, in cui gli agenti estendono ripetutamente le proprie soluzioni precedenti sotto specifiche in evoluzione che forzano decisioni architetturali senza prescrivere la struttura interna. Tracciamo due segnali di qualità a livello di traiettoria: la verbosità, la frazione di codice ridondante o duplicato, e l'erosione strutturale, la quota di complessità concentrata in funzioni ad alta complessità. Nessun agente risolve alcun problema end-to-end tra 11 modelli; il tasso di risoluzione più alto per checkpoint è del 17,2%. La qualità si degrada costantemente: l'erosione aumenta nell'80% delle traiettorie e la verbosità nell'89,8%. Confrontato con 48 repository Python open-source, il codice degli agenti è 2,2 volte più verboso e marcatamente più eroso. Monitorando 20 di questi repository nel tempo, si osserva che il codice umano rimane stabile, mentre il codice degli agenti si deteriora a ogni iterazione. Uno studio di intervento sui prompt mostra che la qualità iniziale può essere migliorata, ma ciò non arresta il degrado. Questi risultati dimostrano che i benchmark basati sul tasso di superamento sottostimano sistematicamente la robustezza all'estensione e che gli agenti attuali mancano della disciplina progettuale richiesta dallo sviluppo software iterativo.

English

Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.

SlopCodeBench: Benchmark delle Prestazioni Degradanti degli Agenti di Codifica in Compiti Iterativi a Lungo Termine

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Abstract

Support