ChatPaper.aiChatPaper

SWE-Lego: ソフトウェア課題解決のための教師ありファインチューニングの限界に挑む

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

January 4, 2026
著者: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai
cs.AI

要旨

本論文では、ソフトウェア工学(SWE)における課題解決でState-of-the-Art(SOTA)性能を達成するために設計された教師ありファインチューニング(SFT)手法「SWE-Lego」を提案する。複雑な訓練パラダイム(例:中間訓練、SFT、強化学習、およびそれらの組み合わせ)に依存する既存手法とは対照的に、我々はSWEタスクにおいて軽量なSFTのみのアプローチの限界をどこまで押し上げられるかを探求する。SWE-Legoは以下の3つの核心的構成要素からなり、主な知見は次のように要約される:1) **SWE-Legoデータセット**:32,000の高品質タスクインスタンスと18,000の検証済み軌跡から成るデータセット。実データと合成データを組み合わせ、質と量の両面で互いに補完する。2) **改良されたSFT手順**:エラーマスキングと難易度に基づくカリキュラム学習を導入したSFT手順。これにより、アクションの質と全体的な性能が顕著に向上することを実証する。実証実験の結果、これら2つの構成要素のみで、SWE-Legoモデルは同等規模のオープンソースモデルの中でSWE-bench VerifiedにおいてSOTA性能を達成した(SWE-Lego-Qwen3-8Bは42.2%、SWE-Lego-Qwen3-32Bは52.6%を達成)。3) **テスト時スケーリング(TTS)の評価と改善**:SFTの基盤の上に構築されたTTSをさらに評価・改善する。十分に訓練された検証器に基づくことで、SWE-Legoモデルは大幅に性能向上する(例:8Bモデルで42.2%→49.6%、32Bモデルで52.6%→58.8%、いずれもTTS@16条件下)。
English
We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.
PDF22January 7, 2026