SWE-RM: Ausführungsfreies Feedback für Softwareentwicklungs-Agenten

papers.abstract

Ausführungsbasierte Rückmeldungen wie Unit-Tests werden häufig bei der Entwicklung von Code-Agenten durch Test-Time-Scaling (TTS) und Reinforcement Learning (RL) eingesetzt. Dieses Paradigma erfordert eine skalierbare und zuverlässige Sammlung von Unit-Testfällen, um genaue Rückmeldungen zu liefern, und die resultierenden Rückmeldungen sind oft spärlich und können nicht effektiv zwischen Trajektorien unterscheiden, die beide erfolgreich oder beide erfolglos sind. Im Gegensatz dazu können ausführungsfreie Rückmeldungen von Belohnungsmodellen feinere Signale liefern, ohne von Unit-Testfällen abzuhängen. Trotz dieses Potenzials bleiben ausführungsfreie Rückmeldungen für realistische Softwareentwicklungs-(SWE)-Agenten weitgehend unerforscht. Mit dem Ziel, vielseitige Belohnungsmodelle zu entwickeln, die sowohl für TTS als auch für RL effektiv sind, stellen wir jedoch fest, dass zwei Verifizierer mit nahezu identischer TTS-Leistung dennoch sehr unterschiedliche Ergebnisse in RL liefern können. Intuitiv spiegelt TTS primär die Fähigkeit des Modells wider, die beste Trajektorie auszuwählen, aber diese Fähigkeit generalisiert nicht notwendigerweise auf RL. Um diese Einschränkung zu adressieren, identifizieren wir zwei zusätzliche Aspekte, die für das RL-Training entscheidend sind: Klassifikationsgenauigkeit und Kalibrierung. Anschließend führen wir umfassende kontrollierte Experimente durch, um zu untersuchen, wie ein robustes Belohnungsmodell trainiert werden kann, das bei diesen Metriken gute Leistungen erbringt. Insbesondere analysieren wir die Auswirkungen verschiedener Faktoren wie Trainingsdatenumfang, Policy-Mischungen und Datenquellenzusammensetzung. Auf Basis dieser Untersuchungen führen wir SWE-RM ein, ein präzises und robustes Belohnungsmodell, das eine Mixture-of-Experts-Architektur mit insgesamt 30B Parametern und 3B aktivierten Parametern während der Inferenz verwendet. SWE-RM verbessert SWE-Agenten erheblich sowohl in der TTS- als auch in der RL-Leistung. Beispielsweise steigert es die Genauigkeit von Qwen3-Coder-Flash von 51,6 % auf 62,0 % und von Qwen3-Coder-Max von 67,0 % auf 74,6 % auf SWE-Bench Verified unter Verwendung von TTS und erreicht damit neue state-of-the-art Leistungen unter Open-Source-Modellen.

English

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

SWE-RM: Ausführungsfreies Feedback für Softwareentwicklungs-Agenten

SWE-RM: Execution-free Feedback For Software Engineering Agents

papers.abstract

Support