SWE-Lego: Spingere i Limiti del Fine-Tuning Supervisionato per la Risoluzione di Problemi Software
SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving
January 4, 2026
Autori: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai
cs.AI
Abstract
Presentiamo SWE-Lego, una ricetta di fine-tuning supervisionato (SFT) progettata per raggiungere prestazioni all'avanguardia nella risoluzione di problemi di ingegneria del software (SWE). A differenza dei metodi prevalenti che si basano su paradigmi di addestramento complessi (ad esempio, mid-training, SFT, apprendimento per rinforzo e loro combinazioni), esploriamo come spingere al limite un approccio SFT leggero e unico per i task SWE. SWE-Lego comprende tre blocchi costitutivi fondamentali, con i risultati chiave riassunti come segue: 1) il dataset SWE-Lego, una raccolta di 32k istanze di task di alta qualità e 18k traiettorie validate, che combina dati reali e sintetici per integrarsi reciprocamente in termini di qualità e quantità; 2) una procedura SFT raffinata con mascheramento degli errori e un curriculum basato sulla difficoltà, che migliora dimostrabilmente la qualità delle azioni e le prestazioni complessive. I risultati empirici mostrano che con questi due soli mattoni fondamentali, l'SFT può spingere i modelli SWE-Lego a prestazioni all'avanguardia tra i modelli open-source di dimensioni comparabili su SWE-bench Verified: SWE-Lego-Qwen3-8B raggiunge il 42,2% e SWE-Lego-Qwen3-32B raggiunge il 52,6%. 3) Valutiamo e miglioriamo ulteriormente il test-time scaling (TTS) costruito sulla base SFT. Basandosi su un verificatore ben addestrato, i modelli SWE-Lego possono essere significativamente potenziati--ad esempio, dal 42,2% al 49,6% e dal 52,6% al 58,8% con TTS@16 rispettivamente per i modelli da 8B e 32B.
English
We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.