SWE-RM: Uitvoeringsvrije Feedback voor Software Engineering Agents

Samenvatting

Op uitvoering gebaseerde feedback, zoals unit testing, wordt veelvuldig gebruikt bij de ontwikkeling van codeeragentschappen via test-time scaling (TTS) en reinforcement learning (RL). Dit paradigma vereist een schaalbare en betrouwbare verzameling van unit testgevallen om accurate feedback te leveren, en de resulterende feedback is vaak schaars en kan niet effectief onderscheid maken tussen trajecten die beide succesvol of beide onsuccesvol zijn. Daarentegen kan uitvoeringsvrije feedback van beloningsmodellen meer fijnmazige signalen verschaffen zonder afhankelijk te zijn van unit testgevallen. Ondanks dit potentieel blijft uitvoeringsvrije feedback voor realistische software engineering (SWE) agentschappen onderbelicht. Met als doel veelzijdige beloningsmodellen te ontwikkelen die effectief zijn voor zowel TTS als RL, merken we echter op dat twee verifiers met bijna identieke TTS-prestaties desondanks zeer verschillende resultaten kunnen opleveren in RL. Intuïtief weerspiegelt TTS voornamelijk het vermogen van het model om het beste traject te selecteren, maar dit vermogen generaliseert niet noodzakelijkerwijs naar RL. Om deze beperking aan te pakken, identificeren we twee aanvullende aspecten die cruciaal zijn voor RL-training: classificatienauwkeurigheid en calibratie. Vervolgens voeren we uitgebreide gecontroleerde experimenten uit om te onderzoeken hoe een robuust beloningsmodel kan worden getraind dat goed presteert op deze metrieken. In het bijzonder analyseren we de impact van diverse factoren zoals de schaal van de trainingsdata, beleidsmengsels en de samenstelling van databronnen. Geleid door deze onderzoeken introduceren we SWE-RM, een nauwkeurig en robuust beloningsmodel dat een mixture-of-experts-architectuur adopteert met in totaal 30B parameters en 3B geactiveerde parameters tijdens inferentie. SWE-RM verbetert SWE-agentschappen aanzienlijk in zowel TTS- als RL-prestaties. Het verhoogt bijvoorbeeld de nauwkeurigheid van Qwen3-Coder-Flash van 51.6% naar 62.0%, en van Qwen3-Coder-Max van 67.0% naar 74.6% op SWE-Bench Verified met behulp van TTS, waarmee het nieuwe state-of-the-art prestaties bereikt onder open-source modellen.

English

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

SWE-RM: Uitvoeringsvrije Feedback voor Software Engineering Agents

SWE-RM: Execution-free Feedback For Software Engineering Agents

Samenvatting

Support