Rubriques agentiques comme vérificateurs contextuels pour les agents de génie logiciel

papers.abstract

La vérification est cruciale pour l'amélioration des agents : elle fournit le signal de récompense pour l'apprentissage par renforcement et permet des gains lors de l'inférence via la mise à l'échelle au moment du test (Test-Time Scaling, TTS). Malgré son importance, la vérification dans les contextes d'agents en génie logiciel (SWE) repose souvent sur l'exécution de code, qui peut être difficile à mettre à l'échelle en raison de la surcharge liée à la configuration de l'environnement. Il existe des alternatives évolutives telles que les classificateurs de correctifs et les méthodes heuristiques, mais elles sont moins ancrées dans le contexte de la base de code et plus difficiles à interpréter. Pour pallier cela, nous explorons les Rubriques Agentiques : un agent expert interagit avec le dépôt pour créer une liste de contrôle de rubrique contextuelle, et les correctifs candidats sont ensuite évalués par rapport à celle-ci sans nécessiter d'exécution de tests. Sur SWE-Bench Verified sous évaluation TTS parallèle, les Rubriques Agentiques obtiennent un score de 54,2 % sur Qwen3-Coder-30B-A3B et de 40,6 % sur Qwen3-32B, soit un gain d'au moins +3,5 points de pourcentage par rapport à la base de référence la plus solide de notre ensemble de comparaison. Nous analysons en outre le comportement des rubriques, montrant que les scores des rubriques sont cohérents avec les tests de vérité terrain tout en signalant également des problèmes que les tests ne capturent pas. Nos études d'ablation montrent que la collecte de contexte agentique est essentielle pour produire des critères spécifiques à la base de code et non ambigus. Ensemble, ces résultats suggèrent que les Rubriques Agentiques fournissent un signal de vérification efficace, évolutif et granulaire pour les agents de génie logiciel.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Rubriques agentiques comme vérificateurs contextuels pour les agents de génie logiciel

Agentic Rubrics as Contextual Verifiers for SWE Agents

papers.abstract

Support