SWE-Master: Liberando el Potencial de los Agentes de Ingeniería de Software mediante el Post-entrenamiento

Resumen

En este informe técnico, presentamos SWE-Master, un marco de trabajo post-entrenamiento de código abierto y completamente reproducible para construir agentes efectivos de ingeniería de software. SWE-Master explora sistemáticamente la pipeline completa de desarrollo de agentes, incluyendo la síntesis de trayectorias maestras y la curación de datos, SFT de horizonte largo, RL con retroalimentación de ejecución real, y el diseño del marco de inferencia. Partiendo de un modelo base de código abierto con capacidades iniciales limitadas en IS, SWE-Master demuestra cómo un método de optimización sistemática puede potenciar fuertes habilidades para resolver tareas de IS de horizonte largo. Evaluamos SWE-Master en SWE-bench Verified, un benchmark estándar para tareas realistas de ingeniería de software. Bajo configuraciones experimentales idénticas, nuestro enfoque logra una tasa de resolución del 61.4% con Qwen2.5-Coder-32B, superando sustancialmente a los baselines de código abierto existentes. Al incorporar además la escalabilidad en tiempo de prueba (TTS) con retroalimentación del entorno basada en LLM, SWE-Master alcanza un 70.8% en TTS@8, demostrando un fuerte potencial de rendimiento. SWE-Master proporciona una base práctica y transparente para avanzar en la investigación reproducible sobre agentes de ingeniería de software. El código está disponible en https://github.com/RUCAIBox/SWE-Master.

English

In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.

SWE-Master: Liberando el Potencial de los Agentes de Ingeniería de Software mediante el Post-entrenamiento

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Resumen

Support