Agentische Bewertungsraster als kontextuelle Verifizierer für SWE-Agenten

papers.abstract

Die Verifikation ist entscheidend für die Verbesserung von Agenten: Sie liefert das Belohnungssignal für Reinforcement Learning und ermöglicht Leistungssteigerungen zur Inferenzzeit durch Test-Time Scaling (TTS). Trotz ihrer Bedeutung stützt sich die Verifikation in Software Engineering (SWE) Agenten-Umgebungen oft auf Code-Ausführung, die aufgrund des Overheads bei der Umgebungseinrichtung schwer zu skalieren sein kann. Skalierbare Alternativen wie Patch-Klassifikatoren und heuristische Methoden existieren, sind jedoch weniger im Codebasis-Kontext verankert und schwerer zu interpretieren. Daher untersuchen wir Agentic Rubrics: Ein Experten-Agent interagiert mit dem Repository, um eine kontextverankerte Rubrik-Checkliste zu erstellen, und Kandidaten-Patches werden dann daran gemessen, ohne Testausführung zu erfordern. Auf SWE-Bench Verified unter paralleler TTS-Auswertung erreichen Agentic Rubrics eine Bewertung von 54,2 % auf Qwen3-Coder-30B-A3B und 40,6 % auf Qwen3-32B, was einem Gewinn von mindestens +3,5 Prozentpunkten gegenüber der stärksten Baseline in unserem Vergleichsdatensatz entspricht. Wir analysieren weiter das Verhalten der Rubriken und zeigen, dass Rubrik-Scores mit Ground-Truth-Tests übereinstimmen, gleichzeitig aber auch Probleme aufzeigen, die von Tests nicht erfasst werden. Unsere Ablation Studies zeigen, dass das agentenbasierte Kontext-Sammeln entscheidend für die Erstellung codespezifischer, eindeutiger Kriterien ist. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Agentic Rubrics ein effizientes, skalierbares und granulares Verifikationssignal für SWE-Agenten bereitstellen.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Agentische Bewertungsraster als kontextuelle Verifizierer für SWE-Agenten

Agentic Rubrics as Contextual Verifiers for SWE Agents

papers.abstract

Support