Skywork-SWE: Enthüllung der Daten-Skalierungsgesetze für Softwareentwicklung in LLMs
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
Autoren: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Zusammenfassung
Die Softwareentwicklung (SWE) hat sich kürzlich als entscheidendes Testfeld für die nächste Generation von LLM-Agenten (Large Language Models) erwiesen, die inhärente Fähigkeiten in zwei kritischen Dimensionen erfordern: nachhaltiges iteratives Problemlösen (z.B. >50 Interaktionsrunden) und die Bewältigung von langen Kontextabhängigkeiten (z.B. >32k Tokens). Der Datenkuratierungsprozess in der SWE bleibt jedoch notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur Ausführung und Validierung von Unit-Tests angewiesen ist. Folglich sind die meisten bestehenden Datensätze auf nur wenige tausend Instanzen aus GitHub beschränkt. Um dies zu adressieren, schlagen wir eine inkrementelle, automatisierte Datenkuratierungs-Pipeline vor, die sowohl das Volumen als auch die Vielfalt von SWE-Datensätzen systematisch skaliert. Unser Datensatz umfasst 10.169 reale Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositories, jeweils ergänzt durch eine in natürlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungs-Image zur automatisierten Unit-Test-Validierung. Wir haben sorgfältig über 8.000 erfolgreich validierte Trainingsverläufe aus unserem vorgeschlagenen SWE-Datensatz kuratiert. Bei der Feinabstimmung des Skywork-SWE-Modells auf diesen Verläufen entdecken wir ein bemerkenswertes Daten-Skalierungsphänomen: Die Leistung des trainierten Modells für Softwareentwicklungsfähigkeiten in LLMs verbessert sich kontinuierlich mit zunehmender Datengröße, ohne Anzeichen von Sättigung zu zeigen. Insbesondere erreicht unser Skywork-SWE-Modell eine Genauigkeit von 38,0 % pass@1 auf dem SWE-bench Verified Benchmark, ohne Verifizierer oder mehrere Rollouts zu verwenden, und setzt damit einen neuen State-of-the-Art (SOTA) unter den auf dem OpenHands-Agenten-Framework basierenden Qwen2.5-Coder-32B-LLMs. Darüber hinaus verbessert sich die Leistung durch die Einbindung von Testzeit-Skalierungstechniken auf 47,0 % Genauigkeit, was die bisherigen SOTA-Ergebnisse für Modelle mit weniger als 32B Parametern übertrifft. Wir veröffentlichen den Skywork-SWE-32B-Modell-Checkpoint, um zukünftige Forschung zu beschleunigen.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.