SWEエージェントのための文脈検証器としてのエージェント型ルーブリック
Agentic Rubrics as Contextual Verifiers for SWE Agents
January 7, 2026
著者: Mohit Raghavendra, Anisha Gunjal, Bing Liu, Yunzhong He
cs.AI
要旨
検証はエージェント改善において極めて重要である:それは強化学習に対する報酬信号を提供し、テスト時スケーリング(TTS)による推論時の性能向上を可能にする。しかしその重要性にもかかわらず、ソフトウェアエンジニアリング(SWE)エージェント設定における検証は、コード実行に依存することが多く、環境構築のオーバーヘッドによりスケーリングが困難な場合がある。パッチ分類器やヒューリスティック手法などのスケーラブルな代替手段は存在するが、これらはコードベースの文脈に基づきにくく、解釈が難しい。そこで我々は「エージェント式ルーブリック」を提案する:専門家エージェントがリポジトリと対話して文脈に基づいたルーブリックチェックリストを作成し、テスト実行を必要とせずに候補パッチをそれに対して評価する。並列TTS評価によるSWE-Bench Verifiedでは、エージェント式ルーブリックはQwen3-Coder-30B-A3Bで54.2%、Qwen3-32Bで40.6%のスコアを達成し、比較対象の最強ベースラインよりも少なくとも+3.5ポイントの向上を示した。さらにルーブリックの挙動を分析し、ルーブリックスコアがグラウンドトゥルーステストと整合性を持つ一方で、テストが捕捉できない問題も検出できることを示す。アブレーション研究により、コードベース固有の明確な基準を生成するには、エージェントによる文脈収集が不可欠であることが確認された。これらの結果は総合的に、エージェント式ルーブリックがSWEエージェントに対して効率的でスケーラブル、かつ詳細な検証信号を提供することを示唆している。
English
Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.