Skywork-SWE: Revelando as Leis de Escalonamento de Dados para Engenharia de Software em LLMs

Resumo

A engenharia de software (SWE) emergiu recentemente como um campo crucial para testar agentes de LLM de próxima geração, exigindo capacidades inerentes em duas dimensões críticas: resolução iterativa e sustentada de problemas (por exemplo, >50 rodadas de interação) e resolução de dependências de contexto longo (por exemplo, >32k tokens). No entanto, o processo de curadoria de dados em SWE continua notoriamente demorado, pois depende fortemente de anotação manual para filtragem de arquivos de código e configuração de ambientes de execução dedicados para executar e validar testes unitários. Consequentemente, a maioria dos conjuntos de dados existentes é limitada a apenas alguns milhares de instâncias provenientes do GitHub. Para isso, propomos um pipeline de curadoria de dados incremental e automatizado que escala sistematicamente tanto o volume quanto a diversidade dos conjuntos de dados de SWE. Nosso conjunto de dados compreende 10.169 instâncias de tarefas reais em Python de 2.531 repositórios distintos do GitHub, cada uma acompanhada de uma tarefa especificada em linguagem natural e uma imagem de ambiente de execução dedicada para validação automatizada de testes unitários. Cuidadosamente, selecionamos mais de 8.000 trajetórias de treinamento validadas em tempo de execução a partir do nosso conjunto de dados proposto para SWE. Ao ajustar o modelo Skywork-SWE nessas trajetórias, descobrimos um fenômeno impressionante de escalabilidade de dados: o desempenho do modelo treinado para capacidades de engenharia de software em LLMs continua a melhorar à medida que o tamanho dos dados aumenta, sem mostrar sinais de saturação. Notavelmente, nosso modelo Skywork-SWE alcança 38,0% de precisão pass@1 no benchmark SWE-bench Verified sem o uso de verificadores ou múltiplas execuções, estabelecendo um novo estado da arte (SOTA) entre os LLMs baseados no Qwen2.5-Coder-32B construídos sobre o framework OpenHands. Além disso, com a incorporação de técnicas de escalabilidade em tempo de teste, o desempenho melhora ainda mais para 47,0% de precisão, superando os resultados SOTA anteriores para modelos com menos de 32 bilhões de parâmetros. Disponibilizamos o checkpoint do modelo Skywork-SWE-32B para acelerar pesquisas futuras.

English

Software engineering (SWE) has recently emerged as a crucial testbed for next-generation LLM agents, demanding inherent capabilities in two critical dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds) and long-context dependency resolution (e.g., >32k tokens). However, the data curation process in SWE remains notoriously time-consuming, as it heavily relies on manual annotation for code file filtering and the setup of dedicated runtime environments to execute and validate unit tests. Consequently, most existing datasets are limited to only a few thousand GitHub-sourced instances. To this end, we propose an incremental, automated data-curation pipeline that systematically scales both the volume and diversity of SWE datasets. Our dataset comprises 10,169 real-world Python task instances from 2,531 distinct GitHub repositories, each accompanied by a task specified in natural language and a dedicated runtime-environment image for automated unit-test validation. We have carefully curated over 8,000 successfully runtime-validated training trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE model on these trajectories, we uncover a striking data scaling phenomenon: the trained model's performance for software engineering capabilities in LLMs continues to improve as the data size increases, showing no signs of saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on the SWE-bench Verified benchmark without using verifiers or multiple rollouts, establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based LLMs built on the OpenHands agent framework. Furthermore, with the incorporation of test-time scaling techniques, the performance further improves to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter models. We release the Skywork-SWE-32B model checkpoint to accelerate future research.

Skywork-SWE: Revelando as Leis de Escalonamento de Dados para Engenharia de Software em LLMs

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Resumo

Support