SWE-RM: Feedback senza Esecuzione per Agenti di Ingegneria del Software
SWE-RM: Execution-free Feedback For Software Engineering Agents
December 26, 2025
Autori: KaShun Shum, Binyuan Hui, Jiawei Chen, Lei Zhang, X. W., Jiaxi Yang, Yuzhen Huang, Junyang Lin, Junxian He
cs.AI
Abstract
I feedback basati sull'esecuzione come i test unitari sono ampiamente utilizzati nello sviluppo di agenti di codifica attraverso il test-time scaling (TTS) e il reinforcement learning (RL). Questo paradigma richiede una raccolta scalabile e affidabile di casi di test unitari per fornire un feedback accurato, e il feedback risultante è spesso sparso e non può distinguere efficacemente tra traiettorie che sono entrambe di successo o entrambe fallimentari. Al contrario, i feedback indipendenti dall'esecuzione forniti da modelli di reward possono offrire segnali più granulari senza dipendere da casi di test unitari. Nonostante questo potenziale, i feedback indipendenti dall'esecuzione per agenti realistici di ingegneria del software (SWE) rimangono poco esplorati. Con l'obiettivo di sviluppare modelli di reward versatili ed efficaci sia in TTS che in RL, tuttavia, osserviamo che due verificatori con prestazioni TTS quasi identiche possono comunque produrre risultati molto diversi in RL. Intuitivamente, il TTS riflette principalmente la capacità del modello di selezionare la traiettoria migliore, ma questa capacità non necessariamente si generalizza al RL. Per affrontare questa limitazione, identifichiamo due aspetti aggiuntivi cruciali per l'addestramento RL: l'accuratezza nella classificazione e la calibrazione. Successivamente conduciamo esperimenti controllati completi per investigare come addestrare un modello di reward robusto che performi bene su queste metriche. In particolare, analizziamo l'impatto di vari fattori come la scala dei dati di addestramento, i mix di policy e la composizione delle fonti dati. Guidati da queste indagini, introduciamo SWE-RM, un modello di reward accurato e robusto che adotta un'architettura mixture-of-experts con 30B parametri totali e 3B attivati durante l'inferenza. SWE-RM migliora sostanzialmente gli agenti SWE sia nelle prestazioni TTS che RL. Ad esempio, aumenta l'accuratezza di Qwen3-Coder-Flash dal 51.6% al 62.0%, e di Qwen3-Coder-Max dal 67.0% al 74.6% su SWE-Bench Verified utilizzando il TTS, raggiungendo nuove prestazioni state-of-the-art tra i modelli open-source.
English
Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.