SWE-Lego: Llevando al Límite el Ajuste Fino Supervisado para la Resolución de Problemas de Software

Resumen

Presentamos SWE-Lego, una receta de ajuste fino supervisado (SFT) diseñada para alcanzar un rendimiento de vanguardia en la resolución de incidencias de ingeniería de software (SWE). A diferencia de los métodos predominantes que dependen de paradigmas de entrenamiento complejos (por ejemplo, entrenamiento intermedio, SFT, aprendizaje por refuerzo y sus combinaciones), exploramos cómo llevar al límite un enfoque ligero basado únicamente en SFT para tareas de SWE. SWE-Lego comprende tres bloques de construcción fundamentales, cuyos hallazgos clave se resumen a continuación: 1) el conjunto de datos SWE-Lego, una colección de 32k instancias de tareas de alta calidad y 18k trayectorias validadas, que combina datos reales y sintéticos para complementarse mutuamente en calidad y cantidad; 2) un procedimiento de SFT refinado con enmascaramiento de errores y un currículum basado en la dificultad, que mejora demostrablemente la calidad de las acciones y el rendimiento general. Los resultados empíricos muestran que solo con estos dos bloques de construcción, el SFT puede llevar a los modelos SWE-Lego a un rendimiento de vanguardia entre los modelos de código abierto de tamaño comparable en SWE-bench Verified: SWE-Lego-Qwen3-8B alcanza un 42.2%, y SWE-Lego-Qwen3-32B logra un 52.6%. 3) Evaluamos y mejoramos adicionalmente el escalado en tiempo de prueba (TTS) construido sobre la base del SFT. Basándose en un verificador bien entrenado, los modelos SWE-Lego pueden potenciarse significativamente--por ejemplo, de 42.2% a 49.6% y de 52.6% a 58.8% bajo TTS@16 para los modelos de 8B y 32B, respectivamente.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.

SWE-Lego: Llevando al Límite el Ajuste Fino Supervisado para la Resolución de Problemas de Software

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Resumen

Support