SlopCodeBench: Benchmarking der Leistungsabnahme von Code-Agenten bei langfristigen iterativen Aufgaben

Zusammenfassung

Software-Entwicklung ist iterativ, doch agentenbasierte Coding-Benchmarks bewerten überwiegend Einzellösungen anhand vollständiger Spezifikationen. Code kann zwar die Testsuite bestehen, aber zunehmend schwerer erweiterbar werden. Jüngere iterative Benchmarks versuchen diese Lücke zu schließen, schränken die Designentscheidungen des Agenten jedoch zu stark ein, um verlässlich zu messen, wie Codequalität künftige Erweiterungen beeinflusst. Wir stellen SlopCodeBench vor, einen sprachunabhängigen Benchmark mit 20 Problemen und 93 Checkpoints, bei dem Agenten wiederholt ihre eigenen vorherigen Lösungen unter sich wandelnden Spezifikationen erweitern, die architektonische Entscheidung erzwingen, ohne die interne Struktur vorzugeben. Wir verfolgen zwei qualitätsbezogene Signale auf Trajektorienebene: Verbosität, den Anteil redundanten oder duplizierten Codes, und strukturelle Erosion, den Anteil der Komplexitätsmasse, die in hochkomplexen Funktionen konzentriert ist. Kein Agent löst mit 11 getesteten Modellen auch nur ein Problem end-to-end; die höchste Checkpoint-Lösungsrate liegt bei 17,2 %. Die Qualität verschlechtert sich stetig: Die Erosion steigt in 80 % der Trajektorien und die Verbosität in 89,8 %. Im Vergleich zu 48 Open-Source-Python-Repositories ist Agentencode 2,2-mal ausführlicher und deutlich stärker erodiert. Die Beobachtung von 20 dieser Repositories über die Zeit zeigt, dass menschlicher Code stabil bleibt, während Agentencode mit jeder Iteration abnimmt. Eine Prompt-Interventionsstudie belegt, dass die anfängliche Qualität verbessert werden kann, dies die Verschlechterung jedoch nicht aufhält. Diese Ergebnisse demonstrieren, dass Benchmarks, die auf Bestehensquoten basieren, die Erweiterungsrobustheit systematisch unterschätzen und dass aktuellen Agenten die Designdisziplin fehlt, die iterative Software-Entwicklung erfordert.

English

Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.

SlopCodeBench: Benchmarking der Leistungsabnahme von Code-Agenten bei langfristigen iterativen Aufgaben

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Zusammenfassung

Support