Skywork-SWE: Раскрытие законов масштабирования данных для разработки программного обеспечения в крупных языковых моделях
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
Авторы: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Аннотация
Инженерия программного обеспечения (ИПО) недавно стала важной испытательной площадкой для агентов следующего поколения на основе крупных языковых моделей (LLM), требуя от них ключевых способностей в двух аспектах: устойчивое итеративное решение задач (например, более 50 раундов взаимодействия) и разрешение зависимостей в длинных контекстах (например, более 32 тыс. токенов). Однако процесс подготовки данных в ИПО остается крайне трудоемким, так как он в значительной степени зависит от ручной аннотации для фильтрации файлов с кодом и настройки специализированных сред выполнения для запуска и проверки модульных тестов. В результате большинство существующих наборов данных ограничены всего несколькими тысячами примеров, взятых из GitHub. В связи с этим мы предлагаем инкрементальный, автоматизированный конвейер подготовки данных, который систематически масштабирует объем и разнообразие наборов данных для ИПО. Наш набор данных включает 10 169 реальных задач на Python из 2 531 уникального репозитория GitHub, каждая из которых сопровождается задачей, описанной на естественном языке, и образом среды выполнения для автоматизированной проверки модульных тестов. Мы тщательно отобрали более 8 000 успешно проверенных траекторий обучения из нашего набора данных для ИПО. При тонкой настройке модели Skywork-SWE на этих траекториях мы обнаружили удивительный феномен масштабирования данных: производительность обученной модели в задачах ИПО продолжает улучшаться с увеличением объема данных, не показывая признаков насыщения. Примечательно, что наша модель Skywork-SWE достигает точности 38,0% по метрике pass@1 на бенчмарке SWE-bench Verified без использования верификаторов или множественных прогонов, устанавливая новый рекорд (SOTA) среди LLM на основе Qwen2.5-Coder-32B, построенных на фреймворке OpenHands. Более того, с применением техник масштабирования на этапе тестирования производительность дополнительно улучшается до 47,0%, превосходя предыдущие результаты SOTA для моделей с менее чем 32 млрд параметров. Мы публикуем контрольную точку модели Skywork-SWE-32B для ускорения будущих исследований.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.