Skywork-SWE: Onthulling van schaalwetten voor data in software engineering bij LLM's

Samenvatting

Software engineering (SWE) is recentelijk naar voren gekomen als een cruciaal testgebied voor de volgende generatie LLM-agents, waarbij inherente capaciteiten vereist zijn op twee kritieke dimensies: aanhoudend iteratief probleemoplossen (bijv. >50 interactierondes) en het oplossen van lange-context afhankelijkheden (bijv. >32k tokens). Het datacuratieproces in SWE blijft echter berucht tijdrovend, omdat het sterk afhankelijk is van handmatige annotatie voor het filteren van codebestanden en het opzetten van specifieke runtime-omgevingen om unittests uit te voeren en te valideren. Als gevolg hiervan zijn de meeste bestaande datasets beperkt tot slechts enkele duizenden GitHub-gebaseerde instanties. Daarom stellen we een incrementele, geautomatiseerde datacuratiepijplijn voor die zowel het volume als de diversiteit van SWE-datasets systematisch opschaalt. Onze dataset bestaat uit 10.169 real-world Python-taakinstanties afkomstig van 2.531 verschillende GitHub-repositories, elk vergezeld van een taak die in natuurlijke taal is gespecificeerd en een specifieke runtime-omgevingsimage voor geautomatiseerde unittest-validatie. We hebben zorgvuldig meer dan 8.000 succesvol runtime-gevalideerde trainingspaden gecureerd uit onze voorgestelde SWE-dataset. Bij het finetunen van het Skywork-SWE-model op deze paden, ontdekken we een opvallend dataschaalverschijnsel: de prestaties van het getrainde model voor software engineering-capaciteiten in LLMs blijven verbeteren naarmate de dataschaal toeneemt, zonder tekenen van verzadiging. Opmerkelijk is dat ons Skywork-SWE-model een nauwkeurigheid van 38,0% pass@1 behaalt op de SWE-bench Verified benchmark, zonder gebruik te maken van verifiers of meerdere rollouts, waarmee het een nieuwe state-of-the-art (SOTA) vestigt onder de Qwen2.5-Coder-32B-gebaseerde LLMs die zijn gebouwd op het OpenHands agent-framework. Bovendien verbetert de prestaties verder tot 47,0% nauwkeurigheid met de integratie van test-time schaaltechnieken, waarmee het de vorige SOTA-resultaten voor sub-32B parameter modellen overtreft. We maken het Skywork-SWE-32B modelcheckpoint beschikbaar om toekomstig onderzoek te versnellen.

English

Software engineering (SWE) has recently emerged as a crucial testbed for next-generation LLM agents, demanding inherent capabilities in two critical dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds) and long-context dependency resolution (e.g., >32k tokens). However, the data curation process in SWE remains notoriously time-consuming, as it heavily relies on manual annotation for code file filtering and the setup of dedicated runtime environments to execute and validate unit tests. Consequently, most existing datasets are limited to only a few thousand GitHub-sourced instances. To this end, we propose an incremental, automated data-curation pipeline that systematically scales both the volume and diversity of SWE datasets. Our dataset comprises 10,169 real-world Python task instances from 2,531 distinct GitHub repositories, each accompanied by a task specified in natural language and a dedicated runtime-environment image for automated unit-test validation. We have carefully curated over 8,000 successfully runtime-validated training trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE model on these trajectories, we uncover a striking data scaling phenomenon: the trained model's performance for software engineering capabilities in LLMs continues to improve as the data size increases, showing no signs of saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on the SWE-bench Verified benchmark without using verifiers or multiple rollouts, establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based LLMs built on the OpenHands agent framework. Furthermore, with the incorporation of test-time scaling techniques, the performance further improves to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter models. We release the Skywork-SWE-32B model checkpoint to accelerate future research.

Skywork-SWE: Onthulling van schaalwetten voor data in software engineering bij LLM's

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Samenvatting

Support