Skywork-SWE: Enthüllung der Daten-Skalierungsgesetze für Softwareentwicklung in LLMs

papers.abstract

Die Softwareentwicklung (SWE) hat sich kürzlich als entscheidendes Testfeld für die nächste Generation von LLM-Agenten (Large Language Models) erwiesen, die inhärente Fähigkeiten in zwei kritischen Dimensionen erfordern: nachhaltiges iteratives Problemlösen (z.B. >50 Interaktionsrunden) und die Bewältigung von langen Kontextabhängigkeiten (z.B. >32k Tokens). Der Datenkuratierungsprozess in der SWE bleibt jedoch notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur Ausführung und Validierung von Unit-Tests angewiesen ist. Folglich sind die meisten bestehenden Datensätze auf nur wenige tausend Instanzen aus GitHub beschränkt. Um dies zu adressieren, schlagen wir eine inkrementelle, automatisierte Datenkuratierungs-Pipeline vor, die sowohl das Volumen als auch die Vielfalt von SWE-Datensätzen systematisch skaliert. Unser Datensatz umfasst 10.169 reale Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositories, jeweils ergänzt durch eine in natürlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungs-Image zur automatisierten Unit-Test-Validierung. Wir haben sorgfältig über 8.000 erfolgreich validierte Trainingsverläufe aus unserem vorgeschlagenen SWE-Datensatz kuratiert. Bei der Feinabstimmung des Skywork-SWE-Modells auf diesen Verläufen entdecken wir ein bemerkenswertes Daten-Skalierungsphänomen: Die Leistung des trainierten Modells für Softwareentwicklungsfähigkeiten in LLMs verbessert sich kontinuierlich mit zunehmender Datengröße, ohne Anzeichen von Sättigung zu zeigen. Insbesondere erreicht unser Skywork-SWE-Modell eine Genauigkeit von 38,0 % pass@1 auf dem SWE-bench Verified Benchmark, ohne Verifizierer oder mehrere Rollouts zu verwenden, und setzt damit einen neuen State-of-the-Art (SOTA) unter den auf dem OpenHands-Agenten-Framework basierenden Qwen2.5-Coder-32B-LLMs. Darüber hinaus verbessert sich die Leistung durch die Einbindung von Testzeit-Skalierungstechniken auf 47,0 % Genauigkeit, was die bisherigen SOTA-Ergebnisse für Modelle mit weniger als 32B Parametern übertrifft. Wir veröffentlichen den Skywork-SWE-32B-Modell-Checkpoint, um zukünftige Forschung zu beschleunigen.

English

Software engineering (SWE) has recently emerged as a crucial testbed for next-generation LLM agents, demanding inherent capabilities in two critical dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds) and long-context dependency resolution (e.g., >32k tokens). However, the data curation process in SWE remains notoriously time-consuming, as it heavily relies on manual annotation for code file filtering and the setup of dedicated runtime environments to execute and validate unit tests. Consequently, most existing datasets are limited to only a few thousand GitHub-sourced instances. To this end, we propose an incremental, automated data-curation pipeline that systematically scales both the volume and diversity of SWE datasets. Our dataset comprises 10,169 real-world Python task instances from 2,531 distinct GitHub repositories, each accompanied by a task specified in natural language and a dedicated runtime-environment image for automated unit-test validation. We have carefully curated over 8,000 successfully runtime-validated training trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE model on these trajectories, we uncover a striking data scaling phenomenon: the trained model's performance for software engineering capabilities in LLMs continues to improve as the data size increases, showing no signs of saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on the SWE-bench Verified benchmark without using verifiers or multiple rollouts, establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based LLMs built on the OpenHands agent framework. Furthermore, with the incorporation of test-time scaling techniques, the performance further improves to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter models. We release the Skywork-SWE-32B model checkpoint to accelerate future research.

Skywork-SWE: Enthüllung der Daten-Skalierungsgesetze für Softwareentwicklung in LLMs

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

papers.abstract

Support