Skywork-SWE: Onthulling van schaalwetten voor data in software engineering bij LLM's
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
Auteurs: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Samenvatting
Software engineering (SWE) is recentelijk naar voren gekomen als een cruciaal testgebied voor de volgende generatie LLM-agents, waarbij inherente capaciteiten vereist zijn op twee kritieke dimensies: aanhoudend iteratief probleemoplossen (bijv. >50 interactierondes) en het oplossen van lange-context afhankelijkheden (bijv. >32k tokens). Het datacuratieproces in SWE blijft echter berucht tijdrovend, omdat het sterk afhankelijk is van handmatige annotatie voor het filteren van codebestanden en het opzetten van specifieke runtime-omgevingen om unittests uit te voeren en te valideren. Als gevolg hiervan zijn de meeste bestaande datasets beperkt tot slechts enkele duizenden GitHub-gebaseerde instanties. Daarom stellen we een incrementele, geautomatiseerde datacuratiepijplijn voor die zowel het volume als de diversiteit van SWE-datasets systematisch opschaalt. Onze dataset bestaat uit 10.169 real-world Python-taakinstanties afkomstig van 2.531 verschillende GitHub-repositories, elk vergezeld van een taak die in natuurlijke taal is gespecificeerd en een specifieke runtime-omgevingsimage voor geautomatiseerde unittest-validatie. We hebben zorgvuldig meer dan 8.000 succesvol runtime-gevalideerde trainingspaden gecureerd uit onze voorgestelde SWE-dataset. Bij het finetunen van het Skywork-SWE-model op deze paden, ontdekken we een opvallend dataschaalverschijnsel: de prestaties van het getrainde model voor software engineering-capaciteiten in LLMs blijven verbeteren naarmate de dataschaal toeneemt, zonder tekenen van verzadiging. Opmerkelijk is dat ons Skywork-SWE-model een nauwkeurigheid van 38,0% pass@1 behaalt op de SWE-bench Verified benchmark, zonder gebruik te maken van verifiers of meerdere rollouts, waarmee het een nieuwe state-of-the-art (SOTA) vestigt onder de Qwen2.5-Coder-32B-gebaseerde LLMs die zijn gebouwd op het OpenHands agent-framework. Bovendien verbetert de prestaties verder tot 47,0% nauwkeurigheid met de integratie van test-time schaaltechnieken, waarmee het de vorige SOTA-resultaten voor sub-32B parameter modellen overtreft. We maken het Skywork-SWE-32B modelcheckpoint beschikbaar om toekomstig onderzoek te versnellen.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.