Skywork-SWE: Revelando as Leis de Escalonamento de Dados para Engenharia de Software em LLMs
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
Autores: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Resumo
A engenharia de software (SWE) emergiu recentemente como um campo crucial para testar agentes de LLM de próxima geração, exigindo capacidades inerentes em duas dimensões críticas: resolução iterativa e sustentada de problemas (por exemplo, >50 rodadas de interação) e resolução de dependências de contexto longo (por exemplo, >32k tokens). No entanto, o processo de curadoria de dados em SWE continua notoriamente demorado, pois depende fortemente de anotação manual para filtragem de arquivos de código e configuração de ambientes de execução dedicados para executar e validar testes unitários. Consequentemente, a maioria dos conjuntos de dados existentes é limitada a apenas alguns milhares de instâncias provenientes do GitHub. Para isso, propomos um pipeline de curadoria de dados incremental e automatizado que escala sistematicamente tanto o volume quanto a diversidade dos conjuntos de dados de SWE. Nosso conjunto de dados compreende 10.169 instâncias de tarefas reais em Python de 2.531 repositórios distintos do GitHub, cada uma acompanhada de uma tarefa especificada em linguagem natural e uma imagem de ambiente de execução dedicada para validação automatizada de testes unitários. Cuidadosamente, selecionamos mais de 8.000 trajetórias de treinamento validadas em tempo de execução a partir do nosso conjunto de dados proposto para SWE. Ao ajustar o modelo Skywork-SWE nessas trajetórias, descobrimos um fenômeno impressionante de escalabilidade de dados: o desempenho do modelo treinado para capacidades de engenharia de software em LLMs continua a melhorar à medida que o tamanho dos dados aumenta, sem mostrar sinais de saturação. Notavelmente, nosso modelo Skywork-SWE alcança 38,0% de precisão pass@1 no benchmark SWE-bench Verified sem o uso de verificadores ou múltiplas execuções, estabelecendo um novo estado da arte (SOTA) entre os LLMs baseados no Qwen2.5-Coder-32B construídos sobre o framework OpenHands. Além disso, com a incorporação de técnicas de escalabilidade em tempo de teste, o desempenho melhora ainda mais para 47,0% de precisão, superando os resultados SOTA anteriores para modelos com menos de 32 bilhões de parâmetros. Disponibilizamos o checkpoint do modelo Skywork-SWE-32B para acelerar pesquisas futuras.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.