Rúbricas Agênticas como Verificadores Contextuais para Agentes de Engenharia de Software

Resumo

A verificação é fundamental para a melhoria de agentes: ela fornece o sinal de recompensa para o Aprendizado por Reforço e possibilita ganhos durante a inferência através do Escalonamento no Momento do Teste (TTS). Apesar de sua importância, a verificação em configurações de agentes de Engenharia de Software (SWE) frequentemente depende da execução de código, o que pode ser difícil de escalar devido à sobrecarga de configuração do ambiente. Alternativas escaláveis, como classificadores de patches e métodos heurísticos, existem, mas são menos fundamentadas no contexto da base de código e mais difíceis de interpretar. Para isso, exploramos as Rubricas Agênticas: um agente especialista interage com o repositório para criar uma lista de verificação de rubrica contextualizada, e os patches candidatos são então pontuados com base nela, sem exigir a execução de testes. No SWE-Bench Verified sob avaliação TTS paralela, as Rubricas Agênticas alcançam uma pontuação de 54,2% no Qwen3-Coder-30B-A3B e 40,6% no Qwen3-32B, representando um ganho de pelo menos +3,5 pontos percentuais em relação à linha de base mais forte em nosso conjunto de comparação. Analisamos ainda o comportamento da rubrica, mostrando que as pontuações são consistentes com os testes de ground-truth, ao mesmo tempo que sinalizam problemas que os testes não capturam. Nossas ablações mostram que a coleta de contexto agêntica é essencial para produzir critérios específicos da base de código e inequívocos. Juntos, esses resultados sugerem que as Rubricas Agênticas fornecem um sinal de verificação eficiente, escalável e granular para agentes de SWE.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Rúbricas Agênticas como Verificadores Contextuais para Agentes de Engenharia de Software

Agentic Rubrics as Contextual Verifiers for SWE Agents

Resumo

Support