Benchmarks não são suficientes: RAMP para avaliação em tempo de execução de modelos agênticos em sistemas de produção

Resumo

Os agentes de LLM estão evoluindo rapidamente de assistentes de codificação para sistemas autônomos de engenharia de software. No entanto, as metodologias de avaliação existentes permanecem amplamente centradas em benchmarks estáticos, isolados e de curto horizonte, que não capturam a complexidade dinâmica dos fluxos de trabalho de produção no mundo real. Como resultado, o desempenho nos benchmarks pode refletir mal a capacidade prática em ambientes de execução realistas que envolvem longas cadeias de execução, interações com ferramentas, gerenciamento de dependências e ciclos iterativos de feedback. Assim, apresentamos o RAMP, uma infraestrutura fundamentada na produção para avaliar agentes de engenharia de software de longo horizonte. Construído sobre a plataforma integrada YatCC, o RAMP fornece uma arquitetura unificada de avaliação em tempo de execução por meio de interfaces padronizadas de orquestração e execução. O RAMP introduz cargas de trabalho realistas de construção de compiladores, com dependências seriais e interações complexas de cadeias de ferramentas, juntamente com um mecanismo de recuperação em estágios para analisar o comportamento de execução sob falha parcial do fluxo de trabalho. A estrutura incorpora ainda métricas multidimensionais orientadas à utilidade que avaliam conjuntamente a qualidade do resultado e a eficiência do processo. Realizamos avaliações em tempo de execução em 15 modelos mainstream e observamos uma degradação substancial de capacidade, que permanece amplamente invisível para benchmarks isolados convencionais. As taxas de conclusão de tarefas colapsam progressivamente ao longo dos fluxos de trabalho seriais, caindo de 100% no estágio inicial para apenas 20% no estágio final, enquanto nenhum dos modelos avaliados conclui com sucesso todo o pipeline. A análise em tempo de execução revela propagação sistemática de falhas e ineficiências significativas de recursos, com custos computacionais diferindo em até três ordens de magnitude entre modelos comparáveis. Essas descobertas sugerem que o RAMP avança a avaliação de modelos agentes em direção a uma avaliação contínua, observável em tempo de execução e fundamentada na produção.

English

LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodologies remain largely centered on static, isolated, and short-horizon benchmarks that fail to capture the dynamic complexity of real-world production workflows. As a result, benchmark performance may poorly reflect practical capability under realistic runtime environments involving long execution chains, tool interactions, dependency management, and iterative feedback loops. We thus present RAMP, a production-grounded infrastructure for assessing long-horizon software engineering agents. Built upon the YatCC integrated platform, RAMP provides a unified runtime assessment architecture through standardized orchestration and execution interfaces. RAMP introduces realistic compiler-construction workloads with serial dependencies and complex toolchain interactions, together with a staged recovery mechanism for analyzing execution behavior under partial workflow failure. The framework further incorporates utility-oriented multi-dimensional metrics that jointly evaluate outcome quality and process efficiency. We conduct runtime assessments across 15 mainstream models and observe substantial capability degradation that remains largely invisible to conventional isolated benchmarks. Task completion rates progressively collapse across serial workflows, dropping from 100% in the initial stage to only 20% in the final stage, while none of the evaluated models successfully completes the entire pipeline. Runtime analysis reveals systematic failure propagation and significant resource inefficiencies, with computational costs differing by up to three orders of magnitude among comparable models. These findings suggest RAMP advances agentic model evaluation toward continuous, runtime-observable, and production-grounded assessment.