SWE-RL: オープンソフトウェア進化における強化学習による大規模言語モデルの推論能力の向上SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
最近リリースされたDeepSeek-R1は、大規模言語モデル(LLM)の汎用的な推論能力を強化するための強化学習(RL)の多大な可能性を実証しました。DeepSeek-R1やその他の後続研究は主に競技プログラミングや数学問題へのRLの適用に焦点を当てていますが、本論文では、現実世界のソフトウェアエンジニアリング向けにRLベースのLLM推論をスケールする初のアプローチであるSWE-RLを紹介します。軽量なルールベースの報酬(例えば、正解とLLMが生成したソリューション間の類似度スコア)を活用することで、SWE-RLはLLMがオープンソースソフトウェアの進化データ(ソフトウェアのライフサイクル全体の記録、コードスナップショット、コード変更、イシューやプルリクエストなどのイベントを含む)から学習し、開発者の推論プロセスとソリューションを自律的に復元することを可能にします。Llama 3をベースにトレーニングされた我々の推論モデル、Llama3-SWE-RL-70Bは、SWE-bench Verified(現実世界のGitHubイシューの人間による検証済みコレクション)において41.0%の解決率を達成しました。我々の知る限り、これは中規模(<100B)LLMにおいてこれまで報告された最高の性能であり、GPT-4oのような主要なプロプライエタリLLMにも匹敵するものです。驚くべきことに、ソフトウェア進化データのみでRLを行ったにもかかわらず、Llama3-SWE-RLは汎用的な推論スキルも獲得しました。例えば、関数コーディング、ライブラリ使用、コード推論、数学、一般的な言語理解という5つのドメイン外タスクにおいて改善された結果を示し、一方で教師ありファインチューニングのベースラインは平均的に性能低下を招きました。全体として、SWE-RLは大規模なソフトウェアエンジニアリングデータを用いた強化学習を通じてLLMの推論能力を向上させる新たな方向性を切り開きました。