Skywork-SWE: Revelando las Leyes de Escalado de Datos para la Ingeniería de Software en LLMs
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs
June 24, 2025
Autores: Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Resumen
La ingeniería de software (SWE, por sus siglas en inglés) ha surgido recientemente como un campo crucial para evaluar a los agentes de LLM de próxima generación, exigiendo capacidades inherentes en dos dimensiones críticas: la resolución iterativa y sostenida de problemas (por ejemplo, >50 rondas de interacción) y la gestión de dependencias de contexto largo (por ejemplo, >32k tokens). Sin embargo, el proceso de curación de datos en SWE sigue siendo notoriamente laborioso, ya que depende en gran medida de la anotación manual para el filtrado de archivos de código y la configuración de entornos de ejecución dedicados para ejecutar y validar pruebas unitarias. Como resultado, la mayoría de los conjuntos de datos existentes se limitan a solo unos pocos miles de instancias obtenidas de GitHub. Para abordar esto, proponemos una canalización de curación de datos incremental y automatizada que escala sistemáticamente tanto el volumen como la diversidad de los conjuntos de datos de SWE. Nuestro conjunto de datos incluye 10,169 instancias de tareas reales en Python provenientes de 2,531 repositorios distintos de GitHub, cada una acompañada de una tarea especificada en lenguaje natural y una imagen de entorno de ejecución dedicada para la validación automatizada de pruebas unitarias. Hemos curado cuidadosamente más de 8,000 trayectorias de entrenamiento validadas en tiempo de ejecución a partir de nuestro conjunto de datos propuesto de SWE. Al ajustar el modelo Skywork-SWE en estas trayectorias, descubrimos un fenómeno notable de escalado de datos: el rendimiento del modelo entrenado para capacidades de ingeniería de software en LLM continúa mejorando a medida que aumenta el tamaño de los datos, sin mostrar signos de saturación. En particular, nuestro modelo Skywork-SWE alcanza un 38.0% de precisión pass@1 en el benchmark SWE-bench Verified sin utilizar verificadores o múltiples ejecuciones, estableciendo un nuevo estado del arte (SOTA) entre los LLM basados en Qwen2.5-Coder-32B construidos sobre el marco de agentes OpenHands. Además, con la incorporación de técnicas de escalado en tiempo de prueba, el rendimiento mejora aún más hasta un 47.0% de precisión, superando los resultados SOTA anteriores para modelos con menos de 32B parámetros. Publicamos el checkpoint del modelo Skywork-SWE-32B para acelerar futuras investigaciones.
English
Software engineering (SWE) has recently emerged as a crucial testbed for
next-generation LLM agents, demanding inherent capabilities in two critical
dimensions: sustained iterative problem-solving (e.g., >50 interaction rounds)
and long-context dependency resolution (e.g., >32k tokens). However, the data
curation process in SWE remains notoriously time-consuming, as it heavily
relies on manual annotation for code file filtering and the setup of dedicated
runtime environments to execute and validate unit tests. Consequently, most
existing datasets are limited to only a few thousand GitHub-sourced instances.
To this end, we propose an incremental, automated data-curation pipeline that
systematically scales both the volume and diversity of SWE datasets. Our
dataset comprises 10,169 real-world Python task instances from 2,531 distinct
GitHub repositories, each accompanied by a task specified in natural language
and a dedicated runtime-environment image for automated unit-test validation.
We have carefully curated over 8,000 successfully runtime-validated training
trajectories from our proposed SWE dataset. When fine-tuning the Skywork-SWE
model on these trajectories, we uncover a striking data scaling phenomenon: the
trained model's performance for software engineering capabilities in LLMs
continues to improve as the data size increases, showing no signs of
saturation. Notably, our Skywork-SWE model achieves 38.0% pass@1 accuracy on
the SWE-bench Verified benchmark without using verifiers or multiple rollouts,
establishing a new state-of-the-art (SOTA) among the Qwen2.5-Coder-32B-based
LLMs built on the OpenHands agent framework. Furthermore, with the
incorporation of test-time scaling techniques, the performance further improves
to 47.0% accuracy, surpassing the previous SOTA results for sub-32B parameter
models. We release the Skywork-SWE-32B model checkpoint to accelerate future
research.