Skywork-SWE : Révéler les lois de mise à l'échelle des données pour l'ingénierie logicielle dans les LLM

papers.abstract

L'ingénierie logicielle (SWE) est récemment devenue un banc d'essai crucial pour les agents LLM de nouvelle génération, exigeant des capacités intrinsèques dans deux dimensions critiques : la résolution itérative et soutenue de problèmes (par exemple, >50 tours d'interaction) et la gestion des dépendances contextuelles longues (par exemple, >32k tokens). Cependant, le processus de curation des données en SWE reste notoirement chronophage, car il repose fortement sur l'annotation manuelle pour le filtrage des fichiers de code et la configuration d'environnements d'exécution dédiés pour exécuter et valider les tests unitaires. Par conséquent, la plupart des jeux de données existants se limitent à quelques milliers d'instances provenant de GitHub. À cette fin, nous proposons un pipeline de curation de données automatisé et incrémental qui permet d'augmenter systématiquement le volume et la diversité des jeux de données SWE. Notre jeu de données comprend 10 169 instances de tâches Python issues de 2 531 dépôts GitHub distincts, chacune accompagnée d'une tâche spécifiée en langage naturel et d'une image d'environnement d'exécution dédiée pour la validation automatisée des tests unitaires. Nous avons soigneusement sélectionné plus de 8 000 trajectoires d'entraînement validées avec succès à partir de notre jeu de données SWE proposé. Lors du fine-tuning du modèle Skywork-SWE sur ces trajectoires, nous découvrons un phénomène frappant de mise à l'échelle des données : les performances du modèle entraîné pour les capacités d'ingénierie logicielle dans les LLM continuent de s'améliorer à mesure que la taille des données augmente, sans montrer de signes de saturation. Notamment, notre modèle Skywork-SWE atteint une précision de 38,0 % en pass@1 sur le benchmark SWE-bench Verified sans utiliser de vérificateurs ni de déploiements multiples, établissant un nouvel état de l'art (SOTA) parmi les LLM basés sur Qwen2.5-Coder-32B construits sur le framework d'agent OpenHands. De plus, avec l'intégration de techniques de mise à l'échelle au moment du test, la performance s'améliore encore pour atteindre 47,0 % de précision, surpassant les résultats SOTA précédents pour les modèles de moins de 32B paramètres. Nous publions le checkpoint du modèle Skywork-SWE-32B pour accélérer les recherches futures.

English

Software engineering (SWE) has recently emerged as a crucial testbed for next-generation LLM agents, demanding inherent capabilities in two critical dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds) and long-context dependency resolution (e.g., >32k tokens). However, the data curation process in SWE remains notoriously time-consuming, as it heavily relies on manual annotation for code file filtering and the setup of dedicated runtime environments to execute and validate unit tests. Consequently, most existing datasets are limited to only a few thousand GitHub-sourced instances. To this end, we propose an incremental, automated data-curation pipeline that systematically scales both the volume and diversity of SWE datasets. Our dataset comprises 10,169 real-world Python task instances from 2,531 distinct GitHub repositories, each accompanied by a task specified in natural language and a dedicated runtime-environment image for automated unit-test validation. We have carefully curated over 8,000 successfully runtime-validated training trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE model on these trajectories, we uncover a striking data scaling phenomenon: the trained model's performance for software engineering capabilities in LLMs continues to improve as the data size increases, showing no signs of saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on the SWE-bench Verified benchmark without using verifiers or multiple rollouts, establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based LLMs built on the OpenHands agent framework. Furthermore, with the incorporation of test-time scaling techniques, the performance further improves to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter models. We release the Skywork-SWE-32B model checkpoint to accelerate future research.

Skywork-SWE : Révéler les lois de mise à l'échelle des données pour l'ingénierie logicielle dans les LLM

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

papers.abstract

Support