SlopCodeBench: Бенчмарк деградации кодирующих агентов при выполнении длительных итеративных задач

Аннотация

Разработка программного обеспечения является итеративной, однако бенчмарки для агентного программирования преимущественно оценивают одношаговые решения по полным спецификациям. Код может проходить набор тестов, но постепенно становиться все сложнее расширять. Недавние итеративные бенчмарки пытаются сократить этот разрыв, но слишком жестко ограничивают проектные решения агента, чтобы достоверно измерить, как качество кода влияет на будущие расширения. Мы представляем SlopCodeBench — языково-независимый бенчмарк, включающий 20 задач и 93 контрольные точки, в котором агенты многократно расширяют свои предыдущие решения в условиях эволюционирующих спецификаций, вынуждающих принимать архитектурные решения без предписания внутренней структуры. Мы отслеживаем два показателя качества на уровне траекторий: избыточность (доля избыточного или дублированного кода) и структурную эрозию (доля сложности, сосредоточенная в функциях с высокой сложностью). Ни один агент не решил ни одну задачу от начала до конца среди 11 моделей; максимальная частота прохождения контрольных точек составила 17,2%. Качество неуклонно снижается: эрозия возрастает в 80% траекторий, а избыточность — в 89,8%. По сравнению с 48 открытыми Python-репозиториями код агентов в 2,2 раза более избыточен и значительно сильнее подвержен эрозии. Наблюдение за 20 из этих репозиториев во времени показывает, что человеческий код остается стабильным, тогда как код агентов ухудшается с каждой итерацией. Исследование с вмешательством в промпты демонстрирует, что исходное качество можно улучшить, но это не останавливает деградацию. Эти результаты показывают, что бенчмарки, ориентированные на процент успешных прохождений, систематически недооценивают устойчивость к расширению, и что современные агенты лишены проектной дисциплины, требуемой итеративной разработкой программного обеспечения.

English

Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.

SlopCodeBench: Бенчмарк деградации кодирующих агентов при выполнении длительных итеративных задач

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Аннотация

Support