SWE-RM: Retroalimentación sin Ejecución para Agentes de Ingeniería de Software

Resumen

La retroalimentación basada en ejecución, como las pruebas unitarias, se utiliza ampliamente en el desarrollo de agentes de codificación mediante el escalado en tiempo de prueba (TTS) y el aprendizaje por refuerzo (RL). Este paradigma requiere una recolección escalable y confiable de casos de prueba unitarios para proporcionar retroalimentación precisa, y la retroalimentación resultante suele ser dispersa y no puede distinguir efectivamente entre trayectorias que son tanto exitosas como no exitosas. En contraste, la retroalimentación libre de ejecución proveniente de modelos de recompensa puede proporcionar señales más granulares sin depender de casos de prueba unitarios. A pesar de este potencial, la retroalimentación libre de ejecución para agentes realistas de ingeniería de software (SWE) sigue estando poco explorada. Con el objetivo de desarrollar modelos de recompensa versátiles que sean efectivos tanto en TTS como en RL, observamos, sin embargo, que dos verificadores con un rendimiento en TTS casi idéntico pueden, no obstante, producir resultados muy diferentes en RL. Intuitivamente, el TTS refleja principalmente la capacidad del modelo para seleccionar la mejor trayectoria, pero esta capacidad no necesariamente se generaliza a RL. Para abordar esta limitación, identificamos dos aspectos adicionales que son cruciales para el entrenamiento con RL: la precisión en la clasificación y la calibración. Luego realizamos experimentos controlados exhaustivos para investigar cómo entrenar un modelo de recompensa robusto que funcione bien en estas métricas. En particular, analizamos el impacto de varios factores, como la escala de los datos de entrenamiento, las mezclas de políticas y la composición de las fuentes de datos. Guiados por estas investigaciones, presentamos SWE-RM, un modelo de recompensa preciso y robusto que adopta una arquitectura de mezcla de expertos con 30B de parámetros totales y 3B activados durante la inferencia. SWE-RM mejora sustancialmente a los agentes SWE tanto en el rendimiento de TTS como de RL. Por ejemplo, aumenta la precisión de Qwen3-Coder-Flash del 51.6% al 62.0%, y de Qwen3-Coder-Max del 67.0% al 74.6% en SWE-Bench Verified utilizando TTS, logrando un nuevo rendimiento de vanguardia entre los modelos de código abierto.

English

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

SWE-RM: Retroalimentación sin Ejecución para Agentes de Ingeniería de Software

SWE-RM: Execution-free Feedback For Software Engineering Agents

Resumen

Support