SWE-RM : Retour d'information sans exécution pour les agents d'ingénierie logicielle

papers.abstract

Les retours basés sur l'exécution, comme les tests unitaires, sont largement utilisés dans le développement d'agents de codage via la mise à l'échelle au moment des tests (TTS) et l'apprentissage par renforcement (RL). Ce paradigme nécessite une collecte évolutive et fiable de cas de test unitaires pour fournir un retour précis, et le feedback résultant est souvent sparse et ne peut pas distinguer efficacement les trajectoires qui sont soit toutes deux réussies, soit toutes deux infructueuses. En revanche, les retours sans exécution provenant de modèles de récompense peuvent fournir des signaux plus granulaires sans dépendre de cas de test unitaires. Malgré ce potentiel, les retours sans exécution pour les agents réalistes d'ingénierie logicielle (SWE) restent peu explorés. Visant à développer des modèles de récompense polyvalents efficaces à la fois en TTS et en RL, nous observons cependant que deux vérificateurs aux performances TTS quasi identiques peuvent néanmoins donner des résultats très différents en RL. Intuitivement, le TTS reflète principalement la capacité du modèle à sélectionner la meilleure trajectoire, mais cette capacité ne se généralise pas nécessairement au RL. Pour pallier cette limite, nous identifions deux aspects supplémentaires cruciaux pour l'entraînement en RL : la précision de classification et l'étalonnage. Nous menons ensuite des expériences contrôlées complètes pour étudier comment entraîner un modèle de récompense robuste performant sur ces métriques. En particulier, nous analysons l'impact de divers facteurs tels que l'échelle des données d'entraînement, les mélanges de politiques et la composition des sources de données. Guidés par ces investigations, nous présentons SWE-RM, un modèle de récompense précis et robuste adoptant une architecture de mélange d'experts avec 30B paramètres totaux et 3B activés lors de l'inférence. SWE-RM améliore substantiellement les agents SWE à la fois en performance TTS et RL. Par exemple, il augmente la précision de Qwen3-Coder-Flash de 51,6 % à 62,0 %, et de Qwen3-Coder-Max de 67,0 % à 74,6 % sur SWE-Bench Verified en utilisant le TTS, établissant ainsi de nouvelles performances de pointe parmi les modèles open source.

English

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

SWE-RM : Retour d'information sans exécution pour les agents d'ingénierie logicielle

SWE-RM: Execution-free Feedback For Software Engineering Agents

papers.abstract

Support