SlopCodeBench: 長期反復タスクにおけるコーディングエージェントの性能劣化のベンチマーキング
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
March 25, 2026
著者: Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Frederic Sala, Aws Albarghouthi
cs.AI
要旨
ソフトウェア開発は反復的なプロセスであるにもかかわらず、エージェントによるコーディングのベンチマークの大半は、完全な仕様に対する単発の解決策を評価することに偏っている。コードはテストスイートを通過できても、次第に拡張が困難になっていく場合がある。最近の反復的ベンチマークはこの格差を埋めようと試みているが、エージェントの設計判断を過度に制約するため、コード品質が将来の拡張に与える影響を忠実に測定できていない。我々はSlopCodeBenchを提案する。これは言語非依存のベンチマークであり、20の問題と93のチェックポイントで構成され、エージェントが内部構造を規定することなくアーキテクチャ上の決定を強いる進化する仕様の下で、自身の過去の解決策を繰り返し拡張する。我々は軌道レベルの2つの品質信号を追跡する:冗長性(冗長または重複したコードの割合)と構造的劣化(高複雑度関数に集中する複雑度質量の割合)である。11のモデルにおいて、いずれのエージェントも問題をエンドツーエンドで解決できず、最高のチェックポイント解決率は17.2%であった。品質は着実に悪化する:劣化は軌道の80%で上昇し、冗長性は89.8%で増加した。48のオープンソースPythonリポジトリと比較すると、エージェントのコードは2.2倍冗長で、著しく劣化が進んでいた。それらリポジトリのうち20を経時的に追跡すると、人間のコードは平坦な状態を維持するのに対し、エージェントのコードは反復ごとに悪化することが示された。プロンプト介入実験では、初期品質は改善可能であるが、劣化を止めることはできないことが示された。これらの結果は、合格率ベンチマークが拡張の堅牢性を体系的に過小評価していること、そして現在のエージェントには反復的ソフトウェア開発が要求する設計規律が欠如していることを実証している。
English
Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.