SWE-Lego: Die Grenzen des überwachten Feinabgleichs zur Lösung von Softwareproblemen erweitern

Zusammenfassung

Wir stellen SWE-Lego vor, ein Rezept für überwachtes Fein-Tuning (SFT), das entwickelt wurde, um Spitzenleistung bei der Lösung von Software-Engineering (SWE)-Problemen zu erzielen. Im Gegensatz zu verbreiteten Methoden, die auf komplexen Trainingsparadigmen basieren (z.B. Mid-Training, SFT, Reinforcement Learning und deren Kombinationen), untersuchen wir, wie die Grenzen eines leichtgewichtigen, reinen SFT-Ansatzes für SWE-Aufgaben ausgereizt werden können. SWE-Lego umfasst drei Kernbausteine, wobei die wichtigsten Erkenntnisse wie folgt zusammengefasst werden können: 1) der SWE-Lego-Datensatz, eine Sammlung von 32.000 hochwertigen Aufgabeninstanzen und 18.000 validierten Trajektorien, die reale und synthetische Daten kombiniert, um sich in Qualität und Quantität gegenseitig zu ergänzen; 2) ein verfeinertes SFT-Verfahren mit Fehlermaskierung und einem leistungsbasierten Curriculum, das nachweislich die Aktionsqualität und die Gesamtleistung verbessert. Empirische Ergebnisse zeigen, dass mit diesen beiden Bausteinen allein das SFT SWE-Lego-Modelle auf Spitzenniveau unter Open-Source-Modellen vergleichbarer Größe beim SWE-bench Verified bringen kann: SWE-Lego-Qwen3-8B erreicht 42,2 % und SWE-Lego-Qwen3-32B erreicht 52,6 %. 3) Wir evaluieren und verbessern weiterhin Test-Time Scaling (TTS), das auf der SFT-Grundlage aufbaut. Basierend auf einem gut trainierten Verifier können SWE-Lego-Modelle signifikant gesteigert werden – zum Beispiel von 42,2 % auf 49,6 % und von 52,6 % auf 58,8 % unter TTS@16 für die 8B- bzw. 32B-Modelle.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.

SWE-Lego: Die Grenzen des überwachten Feinabgleichs zur Lösung von Softwareproblemen erweitern

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Zusammenfassung

Support