SWE-Lego: Расширяя границы контролируемого тонкого настройки для решения проблем программного обеспечения

Аннотация

Мы представляем SWE-Lego — метод supervised fine-tuning (SFT), разработанный для достижения передовых результатов в решении задач программной инженерии (SWE). В отличие от распространенных подходов, основанных на сложных парадигмах обучения (например, mid-training, SFT, обучение с подкреплением и их комбинациях), мы исследуем, как расширить возможности облегченного подхода, использующего только SFT для SWE-задач. SWE-Lego состоит из трех основных компонентов, ключевые выводы по которым суммируются следующим образом: 1) набор данных SWE-Lego, включающий 32 тыс. высококачественных примеров задач и 18 тыс. проверенных траекторий, сочетающий реальные и синтетические данные для взаимного дополнения по качеству и количеству; 2) усовершенствованная процедура SFT с маскированием ошибок и обучением по нарастающей сложности, которая достоверно улучшает качество действий и общую производительность. Эмпирические результаты показывают, что даже только с этими двумя компонентами SFT позволяет моделям SWE-Lego достичь передовых результатов среди моделей сопоставимого размера с открытым исходным кодом на SWE-bench Verified: SWE-Lego-Qwen3-8B достигает 42,2%, а SWE-Lego-Qwen3-32B — 52,6%. 3) Мы дополнительно оцениваем и улучшаем масштабирование на этапе тестирования (TTS), построенное на основе SFT. Благодаря хорошо обученному верификатору производительность моделей SWE-Lego может быть значительно повышена — например, с 42,2% до 49,6% и с 52,6% до 58,8% при TTS@16 для моделей на 8 млрд и 32 млрд параметров соответственно.

English

We present SWE-Lego, a supervised fine-tuning (SFT) recipe designed to achieve state-ofthe-art performance in software engineering (SWE) issue resolving. In contrast to prevalent methods that rely on complex training paradigms (e.g., mid-training, SFT, reinforcement learning, and their combinations), we explore how to push the limits of a lightweight SFT-only approach for SWE tasks. SWE-Lego comprises three core building blocks, with key findings summarized as follows: 1) the SWE-Lego dataset, a collection of 32k highquality task instances and 18k validated trajectories, combining real and synthetic data to complement each other in both quality and quantity; 2) a refined SFT procedure with error masking and a difficulty-based curriculum, which demonstrably improves action quality and overall performance. Empirical results show that with these two building bricks alone,the SFT can push SWE-Lego models to state-of-the-art performance among open-source models of comparable size on SWE-bench Verified: SWE-Lego-Qwen3-8B reaches 42.2%, and SWE-Lego-Qwen3-32B attains 52.6%. 3) We further evaluate and improve test-time scaling (TTS) built upon the SFT foundation. Based on a well-trained verifier, SWE-Lego models can be significantly boosted--for example, 42.2% to 49.6% and 52.6% to 58.8% under TTS@16 for the 8B and 32B models, respectively.

SWE-Lego: Расширяя границы контролируемого тонкого настройки для решения проблем программного обеспечения

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Аннотация

Support