ChatPaper.aiChatPaper

SWE-smith: ソフトウェアエンジニアリングエージェントのためのデータスケーリング

SWE-smith: Scaling Data for Software Engineering Agents

April 30, 2025
著者: John Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang
cs.AI

要旨

ソフトウェアエンジニアリング向けの言語モデル(LMs)における最近の進展にもかかわらず、トレーニングデータの収集は依然として大きな課題となっています。既存のデータセットは小さく、最大でも11以下のGitHubリポジトリから得られた数千のトレーニングインスタンスしかありません。これらのデータセットをキュレーションする手順はしばしば複雑で、数百時間の人的労力を必要とします。また、関連する実行環境も数テラバイトのストレージを占有し、そのスケーラビリティと使いやすさを大幅に制限しています。この課題に対処するため、私たちはSWE-smithを導入します。これは、大規模なソフトウェアエンジニアリングのトレーニングデータを生成するための新しいパイプラインです。任意のPythonコードベースを入力として、SWE-smithは対応する実行環境を構築し、コードベース内の既存のテストを破壊する数百から数千のタスクインスタンスを自動的に合成します。SWE-smithを使用して、128のGitHubリポジトリから得られた50,000のインスタンスからなるデータセットを作成しました。これは、これまでのすべての研究を一桁上回る規模です。私たちはSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1解決率を達成しました。これはオープンソースモデルの中で最先端の性能です。私たちはSWE-smith(収集手順、タスクインスタンス、軌跡、モデル)をオープンソース化し、自動化されたソフトウェアエンジニアリングのためのLMシステム研究の参入障壁を下げます。すべてのアセットはhttps://swesmith.comで利用可能です。
English
Despite recent progress in Language Models (LMs) for software engineering, collecting training data remains a significant pain point. Existing datasets are small, with at most 1,000s of training instances from 11 or fewer GitHub repositories. The procedures to curate such datasets are often complex, necessitating hundreds of hours of human labor; companion execution environments also take up several terabytes of storage, severely limiting their scalability and usability. To address this pain point, we introduce SWE-smith, a novel pipeline for generating software engineering training data at scale. Given any Python codebase, SWE-smith constructs a corresponding execution environment, then automatically synthesizes 100s to 1,000s of task instances that break existing test(s) in the codebase. Using SWE-smith, we create a dataset of 50k instances sourced from 128 GitHub repositories, an order of magnitude larger than all previous works. We train SWE-agent-LM-32B, achieving 40.2% Pass@1 resolve rate on the SWE-bench Verified benchmark, state of the art among open source models. We open source SWE-smith (collection procedure, task instances, trajectories, models) to lower the barrier of entry for research in LM systems for automated software engineering. All assets available at https://swesmith.com.

Summary

AI-Generated Summary

PDF71May 7, 2025