Skywork-SWE: Раскрытие законов масштабирования данных для разработки программного обеспечения в крупных языковых моделях

Аннотация

Инженерия программного обеспечения (ИПО) недавно стала важной испытательной площадкой для агентов следующего поколения на основе крупных языковых моделей (LLM), требуя от них ключевых способностей в двух аспектах: устойчивое итеративное решение задач (например, более 50 раундов взаимодействия) и разрешение зависимостей в длинных контекстах (например, более 32 тыс. токенов). Однако процесс подготовки данных в ИПО остается крайне трудоемким, так как он в значительной степени зависит от ручной аннотации для фильтрации файлов с кодом и настройки специализированных сред выполнения для запуска и проверки модульных тестов. В результате большинство существующих наборов данных ограничены всего несколькими тысячами примеров, взятых из GitHub. В связи с этим мы предлагаем инкрементальный, автоматизированный конвейер подготовки данных, который систематически масштабирует объем и разнообразие наборов данных для ИПО. Наш набор данных включает 10 169 реальных задач на Python из 2 531 уникального репозитория GitHub, каждая из которых сопровождается задачей, описанной на естественном языке, и образом среды выполнения для автоматизированной проверки модульных тестов. Мы тщательно отобрали более 8 000 успешно проверенных траекторий обучения из нашего набора данных для ИПО. При тонкой настройке модели Skywork-SWE на этих траекториях мы обнаружили удивительный феномен масштабирования данных: производительность обученной модели в задачах ИПО продолжает улучшаться с увеличением объема данных, не показывая признаков насыщения. Примечательно, что наша модель Skywork-SWE достигает точности 38,0% по метрике pass@1 на бенчмарке SWE-bench Verified без использования верификаторов или множественных прогонов, устанавливая новый рекорд (SOTA) среди LLM на основе Qwen2.5-Coder-32B, построенных на фреймворке OpenHands. Более того, с применением техник масштабирования на этапе тестирования производительность дополнительно улучшается до 47,0%, превосходя предыдущие результаты SOTA для моделей с менее чем 32 млрд параметров. Мы публикуем контрольную точку модели Skywork-SWE-32B для ускорения будущих исследований.

English

Software engineering (SWE) has recently emerged as a crucial testbed for next-generation LLM agents, demanding inherent capabilities in two critical dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds) and long-context dependency resolution (e.g., >32k tokens). However, the data curation process in SWE remains notoriously time-consuming, as it heavily relies on manual annotation for code file filtering and the setup of dedicated runtime environments to execute and validate unit tests. Consequently, most existing datasets are limited to only a few thousand GitHub-sourced instances. To this end, we propose an incremental, automated data-curation pipeline that systematically scales both the volume and diversity of SWE datasets. Our dataset comprises 10,169 real-world Python task instances from 2,531 distinct GitHub repositories, each accompanied by a task specified in natural language and a dedicated runtime-environment image for automated unit-test validation. We have carefully curated over 8,000 successfully runtime-validated training trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE model on these trajectories, we uncover a striking data scaling phenomenon: the trained model's performance for software engineering capabilities in LLMs continues to improve as the data size increases, showing no signs of saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on the SWE-bench Verified benchmark without using verifiers or multiple rollouts, establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based LLMs built on the OpenHands agent framework. Furthermore, with the incorporation of test-time scaling techniques, the performance further improves to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter models. We release the Skywork-SWE-32B model checkpoint to accelerate future research.

Skywork-SWE: Раскрытие законов масштабирования данных для разработки программного обеспечения в крупных языковых моделях

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Аннотация

Support