SWE-RM: Feedback Livre de Execução para Agentes de Engenharia de Software
SWE-RM: Execution-free Feedback For Software Engineering Agents
December 26, 2025
Autores: KaShun Shum, Binyuan Hui, Jiawei Chen, Lei Zhang, X. W., Jiaxi Yang, Yuzhen Huang, Junyang Lin, Junxian He
cs.AI
Resumo
O feedback baseado em execução, como testes unitários, é amplamente utilizado no desenvolvimento de agentes de codificação através de escalonamento em tempo de teste (TTS) e aprendizagem por reforço (RL). Este paradigma requer uma recolha escalável e fiável de casos de teste unitário para fornecer feedback preciso, sendo que o feedback resultante é frequentemente esparso e não consegue distinguir eficazmente entre trajetórias que são ambas bem-sucedidas ou ambas mal-sucedidas. Em contraste, o feedback livre de execução proveniente de modelos de recompensa pode fornecer sinais mais granulares sem depender de casos de teste unitário. Apesar deste potencial, o feedback livre de execução para agentes realistas de engenharia de software (SWE) permanece pouco explorado. Com o objetivo de desenvolver modelos de recompensa versáteis e eficazes tanto em TTS como em RL, observamos, no entanto, que dois verificadores com desempenho TTS quase idêntico podem, ainda assim, produzir resultados muito diferentes em RL. Intuitivamente, o TTS reflete principalmente a capacidade do modelo de selecionar a melhor trajetória, mas esta capacidade não generaliza necessariamente para RL. Para superar esta limitação, identificamos dois aspetos adicionais cruciais para o treino em RL: a precisão da classificação e a calibração. Em seguida, realizamos experiências controladas abrangentes para investigar como treinar um modelo de recompensa robusto que tenha um bom desempenho nestas métricas. Em particular, analisamos o impacto de vários fatores, como a escala dos dados de treino, misturas de políticas e a composição da fonte de dados. Guiados por estas investigações, introduzimos o SWE-RM, um modelo de recompensa preciso e robusto que adota uma arquitetura de mistura de especialistas com 30B de parâmetros totais e 3B ativados durante a inferência. O SWE-RM melhora substancialmente os agentes SWE tanto no desempenho de TTS como de RL. Por exemplo, aumenta a precisão do Qwen3-Coder-Flash de 51,6% para 62,0% e do Qwen3-Coder-Max de 67,0% para 74,6% no SWE-Bench Verified usando TTS, alcançando um novo desempenho state-of-the-art entre modelos de código aberto.
English
Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.