Agentische Rubrics als Contextuele Verificatiemiddelen voor SWE-Agenten

Samenvatting

Verificatie is cruciaal voor het verbeteren van agenten: het verschaft het beloningssignaal voor Reinforcement Learning en maakt winst tijdens inferentie mogelijk via Test-Time Scaling (TTS). Ondanks dit belang berust verificatie in software engineering (SWE) agent-omgevingen vaak op code-uitvoering, wat moeilijk te schalen kan zijn vanwege de overhead voor het opzetten van de omgeving. Schaalbare alternatieven zoals patch-classifiers en heuristische methoden bestaan, maar deze zijn minder verankerd in de context van de codebase en moeilijker te interpreteren. Daarom verkennen we Agentic Rubrics: een expert-agent interageert met de repository om een contextgebonden rubric-checklist te creëren, en kandidaat-patches worden vervolgens ertegen gescoord zonder dat testuitvoering nodig is. Op SWE-Bench Verified onder parallelle TTS-evaluatie behaalt Agentic Rubrics een score van 54,2% op Qwen3-Coder-30B-A3B en 40,6% op Qwen3-32B, wat een verbetering van ten minste +3,5 procentpunt is ten opzichte van de sterkste baseline in onze vergelijkingsset. We analyseren verder het gedrag van de rubrics en tonen aan dat rubricscores consistent zijn met ground-truth tests, terwijl ze ook problemen signaleren die tests niet oppakken. Onze ablatiestudies tonen aan dat het verzamelen van context door de agent essentieel is voor het produceren van codespecifieke, eenduidige criteria. Gezamenlijk suggereren deze resultaten dat Agentic Rubrics een efficiënt, schaalbaar en gedetailleerd verificatiesignaal bieden voor SWE-agenten.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Agentische Rubrics als Contextuele Verificatiemiddelen voor SWE-Agenten

Agentic Rubrics as Contextual Verifiers for SWE Agents

Samenvatting

Support