ChatPaper.aiChatPaper

SWE 에이전트를 위한 상황별 검증 도구로서의 주체적 루브릭

Agentic Rubrics as Contextual Verifiers for SWE Agents

January 7, 2026
저자: Mohit Raghavendra, Anisha Gunjal, Bing Liu, Yunzhong He
cs.AI

초록

검증은 에이전트 성능 향상에 핵심적인 역할을 합니다: 이는 강화 학습을 위한 보상 신호를 제공하고 테스트 시간 스케일링(TTS)을 통해 추론 시간 성능 향상을 가능하게 합니다. 그러나 이러한 중요성에도 불구하고, 소프트웨어 엔지니어링(SWE) 에이전트 환경에서의 검증은 종종 코드 실행에 의존하는데, 환경 설정 부담으로 인해 확장이 어려울 수 있습니다. 패치 분류기나 휴리스틱 방법과 같은 확장 가능한 대안이 존재하지만, 이러한 방법들은 코드베이스 컨텍스트에 기반을 둔 정도가 낮고 해석이 더 어렵습니다. 이를 위해 우리는 에이전트 기반 루브릭(Agentic Rubrics)을 탐구합니다: 전문가 에이전트가 저장소와 상호작용하여 컨텍스트에 기반한 루브릭 체크리스트를 생성하고, 후보 패치들은 테스트 실행 없이 이 체크리스트에 대해 점수가 매겨집니다. 병렬 TTS 평가 하의 SWE-Bench Verified에서 에이전트 기반 루브릭은 Qwen3-Coder-30B-A3B에서 54.2%, Qwen3-32B에서 40.6%의 점수를 달성했으며, 비교 집단에서 가장 강력한 기준선 대비 최소 +3.5%p의 성능 향상을 보였습니다. 우리는 루브릭 동작을 추가로 분석하여, 루브릭 점수가 실제 테스트 결과와 일관성을 유지하면서도 테스트가 포착하지 못하는 문제들을 함께 표시함을 보여줍니다. 우리의 애블레이션 연구는 에이전트 기반 컨텍스트 수집이 코드베이스 특화적이고 명확한 기준을 생성하는 데 필수적임을 보여줍니다. 이러한 결과들은 종합적으로 에이전트 기반 루브릭이 SWE 에이전트를 위한 효율적이고 확장 가능하며 세분화된 검증 신호를 제공함을 시사합니다.
English
Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.
PDF61January 9, 2026