SlopCodeBench : Évaluation de la Dégradation des Agents de Codage sur des Tâches Itératives à Long Terme
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
March 25, 2026
Auteurs: Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Frederic Sala, Aws Albarghouthi
cs.AI
Résumé
Le développement logiciel est itératif, mais les benchmarks de codage agentique évaluent massivement des solutions ponctuelles contre des spécifications complètes. Le code peut passer la suite de tests mais devenir progressivement plus difficile à étendre. Les benchmarks itératifs récents tentent de combler cet écart, mais contraignent trop étroitement les décisions de conception de l'agent pour mesurer fidèlement comment la qualité du code façonne les extensions futures. Nous présentons SlopCodeBench, un benchmark agnostique au langage comprenant 20 problèmes et 93 points de contrôle, dans lequel les agents étendent répétitivement leurs propres solutions antérieures sous des spécifications évolutives qui forcent des décisions architecturales sans prescrire la structure interne. Nous suivons deux signaux de qualité au niveau de la trajectoire : la verbosité, la fraction de code redondant ou dupliqué, et l'érosion structurelle, la part de masse de complexité concentrée dans les fonctions à haute complexité. Aucun agent ne résout aucun problème de bout en bout sur 11 modèles ; le taux de résolution le plus élevé à un point de contrôle est de 17,2 %. La qualité se dégrade régulièrement : l'érosion augmente dans 80% des trajectoires et la verbosité dans 89,8%. Sur 48 dépôts Python open-source, le code des agents est 2,2 fois plus verbeux et nettement plus érodé. Le suivi de 20 de ces dépôts dans le temps montre que le code humain reste stable, tandis que le code des agents se détériore à chaque itération. Une étude par intervention prompt montre que la qualité initiale peut être améliorée, mais cela n'arrête pas la dégradation. Ces résultats démontrent que les benchmarks basés sur le taux de réussite sous-estiment systématiquement la robustesse à l'extension, et que les agents actuels manquent de la discipline de conception que le développement logiciel itératif exige.
English
Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.