SWE-Lego: De grenzen verleggen van gesuperviseerd finetunen voor het oplossen van softwareproblemen

Samenvatting

Wij presenteren SWE-Lego, een recept voor supervised fine-tuning (SFT) dat is ontworpen om state-of-the-art prestaties te bereiken bij het oplossen van software engineering (SWE) issues. In tegenstelling tot gangbare methoden die steunen op complexe trainingsparadigma's (zoals mid-training, SFT, reinforcement learning en combinaties daarvan), onderzoeken wij hoe de grenzen van een lichtgewicht, uitsluitend op SFT gebaseerde aanpak voor SWE-taken kunnen worden verlegd. SWE-Lego omvat drie kernbouwstenen, waarbij de belangrijkste bevindingen als volgt worden samengevat: 1) de SWE-Lego dataset, een verzameling van 32k hoogwaardige taakinstanties en 18k gevalideerde trajecten, die reële en synthetische data combineert om elkaar aan te vullen in zowel kwaliteit als kwantiteit; 2) een verfijnde SFT-procedure met error masking en een op moeilijkheidsgraad gebaseerd curriculum, waarvan aantoonbaar is dat het de actiekwaliteit en algehele prestaties verbetert. Empirische resultaten tonen aan dat met alleen deze twee bouwstenen, de SFT SWE-Lego-modellen naar state-of-the-art prestaties kan stuwen onder open-source modellen van vergelijkbare omvang op SWE-bench Verified: SWE-Lego-Qwen3-8B bereikt 42,2%, en SWE-Lego-Qwen3-32B behaalt 52,6%. 3) Wij evalueren en verbeteren verder test-time scaling (TTS), gebouwd op de SFT-fundering. Gebaseerd op een goed getrainde verifier, kunnen SWE-Lego-modellen significant worden verbeterd—bijvoorbeeld van 42,2% naar 49,6% en van 52,6% naar 58,8% onder TTS@16 voor respectievelijk de 8B en 32B modellen.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.

SWE-Lego: De grenzen verleggen van gesuperviseerd finetunen voor het oplossen van softwareproblemen

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Samenvatting

Support