Rubriche Agenti come Verificatori Contestuali per Agenti SWE

Abstract

La verifica è fondamentale per migliorare gli agenti: fornisce il segnale di ricompensa per il Reinforcement Learning e consente guadagni durante l'inferenza attraverso il Test-Time Scaling (TTS). Nonostante la sua importanza, la verifica negli ambienti di agenti di ingegneria del software (SWE) si affida spesso all'esecuzione del codice, che può essere difficile da scalare a causa del sovraccarico legato alla configurazione dell'ambiente. Esistono alternative scalabili come i classificatori di patch e i metodi euristici, ma questi sono meno ancorati al contesto della codebase e più difficili da interpretare. A tal fine, esploriamo le Rubriche Agenti: un agente esperto interagisce con il repository per creare una lista di controllo rubricata e contestualizzata, e le patch candidate vengono quindi valutate rispetto ad essa senza richiedere l'esecuzione di test. Su SWE-Bench Verified sotto valutazione TTS parallela, le Rubriche Agenti raggiungono un punteggio del 54.2% su Qwen3-Coder-30B-A3B e del 40.6% su Qwen3-32B, con un guadagno di almeno +3.5 punti percentuali rispetto al baseline più forte nel nostro set di confronto. Analizziamo ulteriormente il comportamento delle rubriche, mostrando che i punteggi delle rubriche sono coerenti con i test di ground truth, segnalando anche problemi che i test non catturano. Le nostre ablazioni mostrano che la raccolta contestuale agente è essenziale per produrre criteri specifici per la codebase e non ambigui. Nel complesso, questi risultati suggeriscono che le Rubriche Agenti forniscono un segnale di verifica efficiente, scalabile e granulare per gli agenti SWE.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Rubriche Agenti come Verificatori Contestuali per Agenti SWE

Agentic Rubrics as Contextual Verifiers for SWE Agents

Abstract

Support