SWE-RM: Обратная связь без выполнения для программных инженерных агентов

Аннотация

Обратная связь на основе выполнения, такая как модульное тестирование, широко используется при разработке кодирующих агентов с помощью масштабирования на этапе тестирования (TTS) и обучения с подкреплением (RL). Эта парадигма требует масштабируемого и надежного сбора тестовых случаев для обеспечения точной обратной связи, однако результирующая обратная связь часто является разреженной и не позволяет эффективно различать траектории, которые являются как успешными, так и неуспешными. В отличие от этого, обратная связь без выполнения (execution-free) от моделей вознаграждения может предоставлять более детальные сигналы без зависимости от модульных тестов. Несмотря на этот потенциал, обратная связь без выполнения для реалистичных агентов разработки программного обеспечения (SWE) остается малоизученной. Стремясь разработать универсальные модели вознаграждения, эффективные как для TTS, так и для RL, мы, однако, наблюдаем, что два верификатора с почти идентичной производительностью в TTS могут давать совершенно разные результаты в RL. Интуитивно, TTS в основном отражает способность модели выбирать лучшую траекторию, но эта способность не обязательно обобщается на RL. Чтобы устранить это ограничение, мы определяем два дополнительных аспекта, критически важных для обучения RL: точность классификации и калибровку. Затем мы проводим комплексные контролируемые эксперименты, чтобы исследовать, как обучить надежную модель вознаграждения, которая хорошо работает по этим метрикам. В частности, мы анализируем влияние различных факторов, таких как объем обучающих данных, смеси политик и состав источников данных. Руководствуясь этими исследованиями, мы представляем SWE-RM — точную и надежную модель вознаграждения, использующую архитектуру смеси экспертов (mixture-of-experts) с общим количеством параметров 30 млрд и 3 млрд активируемых параметров во время вывода. SWE-RM существенно улучшает показатели SWE-агентов как в TTS, так и в RL. Например, она повышает точность Qwen3-Coder-Flash с 51,6% до 62,0%, а Qwen3-Coder-Max — с 67,0% до 74,6% на SWE-Bench Verified при использовании TTS, достигая нового состояния искусства среди моделей с открытым исходным кодом.

English

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

SWE-RM: Обратная связь без выполнения для программных инженерных агентов

SWE-RM: Execution-free Feedback For Software Engineering Agents

Аннотация

Support