SWE-benchが公開されました!
SWE-bench Goes Live!
May 29, 2025
著者: Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang
cs.AI
要旨
現実世界のバグを修正するパッチを生成する課題は、大規模言語モデル(LLM)の能力を評価するための重要なベンチマークとして浮上しています。SWE-benchとその派生ベンチマークはこの領域で標準となっていますが、いくつかの重要な制限があります。それらは初期リリース以降更新されておらず、限られたリポジトリセットをカバーし、インスタンス構築と環境設定に多大な手作業を要します。これらの要因はスケーラビリティを妨げ、過学習やデータ汚染のリスクを引き起こします。本研究では、これらの課題を克服するために設計されたライブ更新可能なベンチマーク、SWE-bench-Liveを提案します。初期リリースでは、2024年以降に作成されたGitHubの実際のイシューから派生した1,319のタスクを93のリポジトリにわたって提供します。各タスクには再現可能な実行を保証する専用のDockerイメージが付属しています。私たちのベンチマークの中核となるのは、インスタンス作成から環境設定までの全プロセスを効率化し、手作業のボトルネックを排除してスケーラビリティと継続的更新を可能にする自動化されたキュレーションパイプライン、\methodです。SWE-bench-Liveにおいて、最先端のエージェントフレームワークとLLMを評価した結果、SWE-benchのような静的ベンチマークと比較して、制御された評価条件下でも大きな性能差が明らかになりました。この差異をより深く理解するため、リポジトリの起源、イシューの新しさ、タスクの難易度にわたる詳細な分析を行いました。ライブなリポジトリ活動に基づいた新鮮で多様かつ実行可能なベンチマークを提供することで、SWE-bench-Liveは、動的で現実世界のソフトウェア開発環境におけるLLMとエージェントの厳密で汚染耐性のある評価を促進します。
English
The issue-resolving task, where a model generates patches to fix real-world
bugs, has emerged as a critical benchmark for evaluating the capabilities of
large language models (LLMs). While SWE-bench and its variants have become
standard in this domain, they suffer from key limitations: they have not been
updated since their initial releases, cover a narrow set of repositories, and
depend heavily on manual effort for instance construction and environment
setup. These factors hinder scalability and introduce risks of overfitting and
data contamination. In this work, we present SWE-bench-Live, a
live-updatable benchmark designed to overcome these challenges. Our
initial release consists of 1,319 tasks derived from real GitHub issues created
since 2024, spanning 93 repositories. Each task is accompanied by a dedicated
Docker image to ensure reproducible execution. Central to our benchmark is
\method, an automated curation pipeline that streamlines the entire process
from instance creation to environment setup, removing manual bottlenecks and
enabling scalability and continuous updates. We evaluate a range of
state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a
substantial performance gap compared to static benchmarks like SWE-bench, even
under controlled evaluation conditions. To better understand this discrepancy,
we perform detailed analyses across repository origin, issue recency, and task
difficulty. By providing a fresh, diverse, and executable benchmark grounded in
live repository activity, SWE-bench-Live facilitates rigorous,
contamination-resistant evaluation of LLMs and agents in dynamic, real-world
software development settings.Summary
AI-Generated Summary