SWE-Lego: Die Grenzen des überwachten Feinabgleichs zur Lösung von Softwareproblemen erweitern
SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving
January 4, 2026
papers.authors: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai
cs.AI
papers.abstract
Wir stellen SWE-Lego vor, ein Rezept für überwachtes Fein-Tuning (SFT), das entwickelt wurde, um Spitzenleistung bei der Lösung von Software-Engineering (SWE)-Problemen zu erzielen. Im Gegensatz zu verbreiteten Methoden, die auf komplexen Trainingsparadigmen basieren (z.B. Mid-Training, SFT, Reinforcement Learning und deren Kombinationen), untersuchen wir, wie die Grenzen eines leichtgewichtigen, reinen SFT-Ansatzes für SWE-Aufgaben ausgereizt werden können. SWE-Lego umfasst drei Kernbausteine, wobei die wichtigsten Erkenntnisse wie folgt zusammengefasst werden können: 1) der SWE-Lego-Datensatz, eine Sammlung von 32.000 hochwertigen Aufgabeninstanzen und 18.000 validierten Trajektorien, die reale und synthetische Daten kombiniert, um sich in Qualität und Quantität gegenseitig zu ergänzen; 2) ein verfeinertes SFT-Verfahren mit Fehlermaskierung und einem leistungsbasierten Curriculum, das nachweislich die Aktionsqualität und die Gesamtleistung verbessert. Empirische Ergebnisse zeigen, dass mit diesen beiden Bausteinen allein das SFT SWE-Lego-Modelle auf Spitzenniveau unter Open-Source-Modellen vergleichbarer Größe beim SWE-bench Verified bringen kann: SWE-Lego-Qwen3-8B erreicht 42,2 % und SWE-Lego-Qwen3-32B erreicht 52,6 %. 3) Wir evaluieren und verbessern weiterhin Test-Time Scaling (TTS), das auf der SFT-Grundlage aufbaut. Basierend auf einem gut trainierten Verifier können SWE-Lego-Modelle signifikant gesteigert werden – zum Beispiel von 42,2 % auf 49,6 % und von 52,6 % auf 58,8 % unter TTS@16 für die 8B- bzw. 32B-Modelle.
English
We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.