Агентные рубрики как контекстуальные верификаторы для SWE-агентов

Аннотация

Верификация играет ключевую роль в улучшении агентов: она обеспечивает сигнал вознаграждения для обучения с подкреплением и позволяет получить выгоду во время вывода благодаря масштабированию на этапе тестирования (Test-Time Scaling, TTS). Несмотря на свою важность, верификация в условиях программных агентов (Software Engineering, SWE) часто полагается на выполнение кода, что может быть сложно масштабировать из-за накладных расходов на настройку окружения. Существуют масштабируемые альтернативы, такие как классификаторы патчей и эвристические методы, но они менее основаны на контексте кодовой базы и их сложнее интерпретировать. В связи с этим мы исследуем Агентские Рубрики: агент-эксперт взаимодействует с репозиторием для создания контекстно-обоснованного контрольного списка критериев, после чего кандидатные патчи оцениваются по нему без необходимости выполнения тестов. На наборе SWE-Bench Verified при параллельной оценке TTS Агентские Рубрики достигают показателя 54,2% для Qwen3-Coder-30B-A3B и 40,6% для Qwen3-32B, что как минимум на +3,5 процентных пункта выше, чем у сильнейшего базового метода в нашем сравнительном наборе. Мы также анализируем поведение рубрик, показывая, что оценки по рубрикам согласуются с эталонными тестами, одновременно отмечая проблемы, которые тесты не фиксируют. Наши ablation-исследования показывают, что агентский сбор контекста необходим для создания специфичных для кодовой базы и однозначных критериев. В совокупности эти результаты свидетельствуют о том, что Агентские Рубрики обеспечивают эффективный, масштабируемый и детализированный сигнал верификации для SWE-агентов.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Агентные рубрики как контекстуальные верификаторы для SWE-агентов

Agentic Rubrics as Contextual Verifiers for SWE Agents

Аннотация

Support