Rúbricas de Agencia como Verificadores Contextuales para Agentes de Ingeniería de Software

Resumen

La verificación es fundamental para mejorar los agentes: proporciona la señal de recompensa para el Aprendizaje por Refuerzo y permite ganancias en tiempo de inferencia mediante Escalado en Tiempo de Prueba (TTS). A pesar de su importancia, la verificación en entornos de agentes de ingeniería de software (SWE) a menudo depende de la ejecución de código, lo que puede ser difícil de escalar debido a la sobrecarga de configuración del entorno. Existen alternativas escalables como clasificadores de parches y métodos heurísticos, pero están menos fundamentadas en el contexto de la base de código y son más difíciles de interpretar. Para ello, exploramos las Rúbricas Agénticas: un agente experto interactúa con el repositorio para crear una lista de verificación de rúbrica contextualizada, y luego los parches candidatos se puntúan en comparación con ella sin requerir la ejecución de pruebas. En SWE-Bench Verified bajo evaluación TTS paralela, las Rúbricas Agénticas logran una puntuación del 54.2% en Qwen3-Coder-30B-A3B y del 40.6% en Qwen3-32B, con una ganancia de al menos +3.5 puntos porcentuales sobre la línea base más fuerte en nuestro conjunto de comparación. Analizamos además el comportamiento de la rúbrica, mostrando que las puntuaciones de la rúbrica son consistentes con las pruebas de verdad fundamental, a la vez que señalan problemas que las pruebas no capturan. Nuestras ablaciones muestran que la recopilación de contexto agéntica es esencial para producir criterios específicos de la base de código y no ambiguos. En conjunto, estos resultados sugieren que las Rúbricas Agénticas proporcionan una señal de verificación eficiente, escalable y granular para los agentes de SWE.

English

Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.

Rúbricas de Agencia como Verificadores Contextuales para Agentes de Ingeniería de Software

Agentic Rubrics as Contextual Verifiers for SWE Agents

Resumen

Support