SlopCodeBench: Avaliação Comparativa da Degradação de Agentes de Codificação em Tarefas Iterativas de Longo Prazo

Resumo

O desenvolvimento de software é iterativo, mas os *benchmarks* de codificação com agentes avaliam massivamente soluções únicas contra especificações completas. O código pode passar na suíte de testes, mas tornar-se progressivamente mais difícil de estender. *Benchmarks* iterativos recentes tentam reduzir esta lacuna, mas restringem demasiado as decisões de *design* do agente para medir fielmente como a qualidade do código molda extensões futuras. Apresentamos o SlopCodeBench, um *benchmark* agnóstico à linguagem que compreende 20 problemas e 93 pontos de verificação, no qual os agentes estendem repetidamente as suas próprias soluções anteriores sob especificações em evolução que forçam decisões arquitetónicas sem prescrever a estrutura interna. Acompanhamos dois sinais de qualidade a nível da trajetória: a verbosidade, a fração de código redundante ou duplicado, e a erosão estrutural, a parcela da massa de complexidade concentrada em funções de alta complexidade. Nenhum agente resolve qualquer problema de ponta a ponta em 11 modelos; a taxa mais alta de resolução num ponto de verificação é de 17,2%. A qualidade degrada-se de forma constante: a erosão aumenta em 80% das trajetórias e a verbosidade em 89,8%. Comparado com 48 repositórios Python de código aberto, o código dos agentes é 2,2 vezes mais verboso e visivelmente mais erodido. O acompanhamento de 20 desses repositórios ao longo do tempo mostra que o código humano se mantém estável, enquanto o código dos agentes se deteriora a cada iteração. Um estudo de intervenção por *prompt* mostra que a qualidade inicial pode ser melhorada, mas isso não interrompe a degradação. Estes resultados demonstram que os *benchmarks* baseados na taxa de aprovação subestimam sistematicamente a robustez da extensão e que os agentes atuais carecem da disciplina de *design* que o desenvolvimento iterativo de software exige.

English

Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.

SlopCodeBench: Avaliação Comparativa da Degradação de Agentes de Codificação em Tarefas Iterativas de Longo Prazo

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Resumo

Support