SWE-Lego: Расширяя границы контролируемого тонкого настройки для решения проблем программного обеспечения
SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving
January 4, 2026
Авторы: Chaofan Tao, Jierun Chen, Yuxin Jiang, Kaiqi Kou, Shaowei Wang, Ruoyu Wang, Xiaohui Li, Sidi Yang, Yiming Du, Jianbo Dai, Zhiming Mao, Xinyu Wang, Lifeng Shang, Haoli Bai
cs.AI
Аннотация
Мы представляем SWE-Lego — метод supervised fine-tuning (SFT), разработанный для достижения передовых результатов в решении задач программной инженерии (SWE). В отличие от распространенных подходов, основанных на сложных парадигмах обучения (например, mid-training, SFT, обучение с подкреплением и их комбинациях), мы исследуем, как расширить возможности облегченного подхода, использующего только SFT для SWE-задач. SWE-Lego состоит из трех основных компонентов, ключевые выводы по которым суммируются следующим образом: 1) набор данных SWE-Lego, включающий 32 тыс. высококачественных примеров задач и 18 тыс. проверенных траекторий, сочетающий реальные и синтетические данные для взаимного дополнения по качеству и количеству; 2) усовершенствованная процедура SFT с маскированием ошибок и обучением по нарастающей сложности, которая достоверно улучшает качество действий и общую производительность. Эмпирические результаты показывают, что даже только с этими двумя компонентами SFT позволяет моделям SWE-Lego достичь передовых результатов среди моделей сопоставимого размера с открытым исходным кодом на SWE-bench Verified: SWE-Lego-Qwen3-8B достигает 42,2%, а SWE-Lego-Qwen3-32B — 52,6%. 3) Мы дополнительно оцениваем и улучшаем масштабирование на этапе тестирования (TTS), построенное на основе SFT. Благодаря хорошо обученному верификатору производительность моделей SWE-Lego может быть значительно повышена — например, с 42,2% до 49,6% и с 52,6% до 58,8% при TTS@16 для моделей на 8 млрд и 32 млрд параметров соответственно.
English
We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.