SWE-Lego: Llevando al Límite el Ajuste Fino Supervisado para la Resolución de Problemas de Software
SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving
January 4, 2026
Autores: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai
cs.AI
Resumen
Presentamos SWE-Lego, una receta de ajuste fino supervisado (SFT) diseñada para alcanzar un rendimiento de vanguardia en la resolución de incidencias de ingeniería de software (SWE). A diferencia de los métodos predominantes que dependen de paradigmas de entrenamiento complejos (por ejemplo, entrenamiento intermedio, SFT, aprendizaje por refuerzo y sus combinaciones), exploramos cómo llevar al límite un enfoque ligero basado únicamente en SFT para tareas de SWE. SWE-Lego comprende tres bloques de construcción fundamentales, cuyos hallazgos clave se resumen a continuación: 1) el conjunto de datos SWE-Lego, una colección de 32k instancias de tareas de alta calidad y 18k trayectorias validadas, que combina datos reales y sintéticos para complementarse mutuamente en calidad y cantidad; 2) un procedimiento de SFT refinado con enmascaramiento de errores y un currículum basado en la dificultad, que mejora demostrablemente la calidad de las acciones y el rendimiento general. Los resultados empíricos muestran que solo con estos dos bloques de construcción, el SFT puede llevar a los modelos SWE-Lego a un rendimiento de vanguardia entre los modelos de código abierto de tamaño comparable en SWE-bench Verified: SWE-Lego-Qwen3-8B alcanza un 42.2%, y SWE-Lego-Qwen3-32B logra un 52.6%. 3) Evaluamos y mejoramos adicionalmente el escalado en tiempo de prueba (TTS) construido sobre la base del SFT. Basándose en un verificador bien entrenado, los modelos SWE-Lego pueden potenciarse significativamente--por ejemplo, de 42.2% a 49.6% y de 52.6% a 58.8% bajo TTS@16 para los modelos de 8B y 32B, respectivamente.
English
We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.