SWE-Lego: Expandindo os Limites do Ajuste Fino Supervisionado para Resolução de Problemas de Software

Resumo

Apresentamos o SWE-Lego, uma receita de ajuste fino supervisionado (SFT) projetada para alcançar desempenho de última geração na resolução de problemas de engenharia de software (SWE). Em contraste com os métodos predominantes que dependem de paradigmas de treinamento complexos (por exemplo, mid-training, SFT, aprendizagem por reforço e suas combinações), exploramos como levar ao limite uma abordagem leve baseada apenas em SFT para tarefas de SWE. O SWE-Lego compreende três blocos de construção principais, com descobertas-chave resumidas da seguinte forma: 1) o conjunto de dados SWE-Lego, uma coleção de 32 mil instâncias de tarefas de alta qualidade e 18 mil trajetórias validadas, combinando dados reais e sintéticos para se complementarem em qualidade e quantidade; 2) um procedimento de SFT refinado com mascaramento de erros e um currículo baseado em dificuldade, que comprovadamente melhora a qualidade da ação e o desempenho geral. Resultados empíricos mostram que apenas com esses dois blocos de construção, o SFT pode levar os modelos SWE-Lego a um desempenho de última geração entre modelos de código aberto de tamanho comparável no SWE-bench Verified: SWE-Lego-Qwen3-8B atinge 42,2% e SWE-Lego-Qwen3-32B alcança 52,6%. 3) Avaliamos e melhoramos ainda mais a escala em tempo de teste (TTS) construída sobre a base do SFT. Com base em um verificador bem treinado, os modelos SWE-Lego podem ser significativamente impulsionados – por exemplo, de 42,2% para 49,6% e de 52,6% para 58,8% sob TTS@16 para os modelos de 8B e 32B, respectivamente.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.