SWE-Lego : Repousser les limites du fine-tuning supervisé pour la résolution de problèmes logiciels

Résumé

Nous présentons SWE-Lego, une méthode de fine-tuning supervisé (SFT) conçue pour atteindre des performances de pointe dans la résolution de problèmes de génie logiciel (SWE). Contrairement aux méthodes prédominantes qui reposent sur des paradigmes d'entraînement complexes (par exemple, le mid-training, le SFT, l'apprentissage par renforcement et leurs combinaisons), nous explorons comment repousser les limites d'une approche SFT légère exclusive pour les tâches SWE. SWE-Lego comprend trois blocs de construction fondamentaux, dont les principaux résultats sont résumés comme suit : 1) le jeu de données SWE-Lego, une collection de 32k instances de tâches de haute qualité et 18k trajectoires validées, combinant des données réelles et synthétiques pour se compléter mutuellement en qualité et en quantité ; 2) une procédure SFT raffinée avec masquage des erreurs et un curriculum basé sur la difficulté, qui améliore démontrablement la qualité des actions et les performances globales. Les résultats empiriques montrent qu'avec ces deux seuls blocs de construction, le SFT peut hisser les modèles SWE-Lego à des performances de pointe parmi les modèles open-source de taille comparable sur SWE-bench Verified : SWE-Lego-Qwen3-8B atteint 42,2 %, et SWE-Lego-Qwen3-32B atteint 52,6 %. 3) Nous évaluons et améliorons ensuite le scaling au moment du test (TTS) construit sur la base SFT. Sur la base d'un vérificateur bien entraîné, les modèles SWE-Lego peuvent être considérablement boostés – par exemple, de 42,2 % à 49,6 % et de 52,6 % à 58,8 % sous TTS@16 pour les modèles 8B et 32B, respectivement.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.

SWE-Lego : Repousser les limites du fine-tuning supervisé pour la résolution de problèmes logiciels

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Résumé

Support