Skywork-SWE: Svelare le Leggi di Scalabilità dei Dati per l'Ingegneria del Software nei Modelli Linguistici di Grande Dimensione
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
Autori: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Abstract
L'ingegneria del software (SWE) è recentemente emersa come un banco di prova cruciale per la prossima generazione di agenti LLM, richiedendo capacità intrinseche in due dimensioni critiche: risoluzione iterativa e prolungata di problemi (ad esempio, >50 round di interazione) e gestione di dipendenze contestuali estese (ad esempio, >32k token). Tuttavia, il processo di curatela dei dati in SWE rimane notoriamente dispendioso in termini di tempo, poiché si basa pesantemente sull'annotazione manuale per il filtraggio dei file di codice e sulla configurazione di ambienti runtime dedicati per eseguire e validare test unitari. Di conseguenza, la maggior parte dei dataset esistenti è limitata a poche migliaia di istanze provenienti da GitHub. A tal fine, proponiamo una pipeline di curatela dei dati incrementale e automatizzata che scala sistematicamente sia il volume che la diversità dei dataset SWE. Il nostro dataset comprende 10.169 istanze di task reali in Python provenienti da 2.531 repository GitHub distinti, ciascuna accompagnata da una specifica del task in linguaggio naturale e da un'immagine dedicata dell'ambiente runtime per la validazione automatica dei test unitari. Abbiamo accuratamente curato oltre 8.000 traiettorie di addestramento validate con successo durante il runtime dal nostro dataset SWE proposto. Quando addestriamo il modello Skywork-SWE su queste traiettorie, scopriamo un fenomeno sorprendente di scalabilità dei dati: le prestazioni del modello addestrato per le capacità di ingegneria del software negli LLM continuano a migliorare all'aumentare delle dimensioni dei dati, senza mostrare segni di saturazione. In particolare, il nostro modello Skywork-SWE raggiunge un'accuratezza del 38,0% in pass@1 sul benchmark SWE-bench Verified senza l'uso di verificatori o rollout multipli, stabilendo un nuovo stato dell'arte (SOTA) tra gli LLM basati su Qwen2.5-Coder-32B costruiti sul framework OpenHands agent. Inoltre, con l'incorporazione di tecniche di scalabilità durante il test, le prestazioni migliorano ulteriormente fino al 47,0% di accuratezza, superando i precedenti risultati SOTA per modelli con meno di 32B parametri. Rilasciamo il checkpoint del modello Skywork-SWE-32B per accelerare la ricerca futura.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.