SWE-Lego: Spingere i Limiti del Fine-Tuning Supervisionato per la Risoluzione di Problemi Software

Abstract

Presentiamo SWE-Lego, una ricetta di fine-tuning supervisionato (SFT) progettata per raggiungere prestazioni all'avanguardia nella risoluzione di problemi di ingegneria del software (SWE). A differenza dei metodi prevalenti che si basano su paradigmi di addestramento complessi (ad esempio, mid-training, SFT, apprendimento per rinforzo e loro combinazioni), esploriamo come spingere al limite un approccio SFT leggero e unico per i task SWE. SWE-Lego comprende tre blocchi costitutivi fondamentali, con i risultati chiave riassunti come segue: 1) il dataset SWE-Lego, una raccolta di 32k istanze di task di alta qualità e 18k traiettorie validate, che combina dati reali e sintetici per integrarsi reciprocamente in termini di qualità e quantità; 2) una procedura SFT raffinata con mascheramento degli errori e un curriculum basato sulla difficoltà, che migliora dimostrabilmente la qualità delle azioni e le prestazioni complessive. I risultati empirici mostrano che con questi due soli mattoni fondamentali, l'SFT può spingere i modelli SWE-Lego a prestazioni all'avanguardia tra i modelli open-source di dimensioni comparabili su SWE-bench Verified: SWE-Lego-Qwen3-8B raggiunge il 42,2% e SWE-Lego-Qwen3-32B raggiunge il 52,6%. 3) Valutiamo e miglioriamo ulteriormente il test-time scaling (TTS) costruito sulla base SFT. Basandosi su un verificatore ben addestrato, i modelli SWE-Lego possono essere significativamente potenziati--ad esempio, dal 42,2% al 49,6% e dal 52,6% al 58,8% con TTS@16 rispettivamente per i modelli da 8B e 32B.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.

SWE-Lego: Spingere i Limiti del Fine-Tuning Supervisionato per la Risoluzione di Problemi Software

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Abstract

Support