Multi-SWE-bench: 課題解決のための多言語ベンチマークMulti-SWE-bench: A Multilingual Benchmark for Issue Resolving
課題解決タスクとは、コードベースを修正して特定の課題に対処するパッチを生成することです。しかし、SWE-benchなどの既存のベンチマークはほぼPythonに限定されており、多様なソフトウェアエコシステムにおける大規模言語モデル(LLM)の評価には不十分です。これを解決するため、我々はJava、TypeScript、JavaScript、Go、Rust、C、C++をカバーする多言語課題解決ベンチマーク「Multi-SWE-bench」を導入しました。このベンチマークには、2,456の候補から68人の専門家アノテーターが慎重に選定した1,632の高品質なインスタンスが含まれており、正確で信頼性の高い評価を提供できるようになっています。Multi-SWE-benchに基づき、我々は最先端のモデルを3つの代表的な手法(Agentless、SWE-agent、OpenHands)を用いて評価し、重要な実証的知見を含む包括的な分析を提示します。さらに、課題解決タスクのための大規模な強化学習(RL)トレーニングデータセットを構築することを目的とした「Multi-SWE-RL」オープンソースコミュニティを立ち上げました。最初の貢献として、7つのプログラミング言語にまたがる4,723の整然としたインスタンスを公開し、この分野におけるRL研究の基盤を築きました。さらに重要なことに、我々はデータ生成パイプライン全体と詳細なチュートリアルをオープンソース化し、オープンソースコミュニティが継続的に貢献し、データセットを拡大することを奨励しています。我々は、Multi-SWE-benchと成長を続けるMulti-SWE-RLコミュニティが、RLの可能性を最大限に引き出し、AGIの夜明けに一歩近づくための触媒となることを期待しています。