Benchmarks zijn niet genoeg: RAMP voor runtime-evaluatie van agentmodellen in productiesystemen

Samenvatting

LLM-agenten evolueren snel van codeerassistenten naar autonome software-engineering systemen. Bestaande evaluatiemethodologieën blijven echter grotendeels gericht op statische, geïsoleerde en kortetermijn-benchmarks die de dynamische complexiteit van realistische productieworkflows niet kunnen vatten. Hierdoor kunnen benchmarkprestaties een slechte afspiegeling zijn van de praktische capaciteiten onder realistische runtime-omgevingen met lange uitvoeringsketens, toolinteracties, afhankelijkheidsbeheer en iteratieve feedbackloops. We presenteren daarom RAMP, een productiegebaseerde infrastructuur voor het beoordelen van software-engineering agenten met een lange horizon. Gebouwd op het YatCC-geïntegreerde platform biedt RAMP een uniforme runtime-beoordelingsarchitectuur via gestandaardiseerde orkestratie- en uitvoeringsinterfaces. RAMP introduceert realistische compilerconstructieworkloads met seriële afhankelijkheden en complexe toolchain-interacties, samen met een gefaseerd herstelmechanisme voor het analyseren van uitvoeringsgedrag bij gedeeltelijke workflowstoringen. Het raamwerk omvat verder nut-georiënteerde multidimensionale metrieken die gezamenlijk de uitkomstkwaliteit en procesefficiëntie evalueren. We voeren runtime-beoordelingen uit over 15 mainstream modellen en observeren substantiële capaciteitsdegradatie die grotendeels onzichtbaar blijft voor conventionele geïsoleerde benchmarks. Taakvoltooiingspercentages storten progressief in over seriële workflows, dalend van 100% in de initiële fase tot slechts 20% in de laatste fase, terwijl geen van de geëvalueerde modellen de volledige pijplijn succesvol voltooit. Runtime-analyse onthult systematische foutpropagatie en aanzienlijke resource-inefficiënties, met rekenkosten die tot drie ordes van grootte verschillen tussen vergelijkbare modellen. Deze bevindingen suggereren dat RAMP de evaluatie van agentische modellen vooruitbrengt naar continue, runtime-waarneembare en productiegebaseerde beoordeling.

English

LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodologies remain largely centered on static, isolated, and short-horizon benchmarks that fail to capture the dynamic complexity of real-world production workflows. As a result, benchmark performance may poorly reflect practical capability under realistic runtime environments involving long execution chains, tool interactions, dependency management, and iterative feedback loops. We thus present RAMP, a production-grounded infrastructure for assessing long-horizon software engineering agents. Built upon the YatCC integrated platform, RAMP provides a unified runtime assessment architecture through standardized orchestration and execution interfaces. RAMP introduces realistic compiler-construction workloads with serial dependencies and complex toolchain interactions, together with a staged recovery mechanism for analyzing execution behavior under partial workflow failure. The framework further incorporates utility-oriented multi-dimensional metrics that jointly evaluate outcome quality and process efficiency. We conduct runtime assessments across 15 mainstream models and observe substantial capability degradation that remains largely invisible to conventional isolated benchmarks. Task completion rates progressively collapse across serial workflows, dropping from 100% in the initial stage to only 20% in the final stage, while none of the evaluated models successfully completes the entire pipeline. Runtime analysis reveals systematic failure propagation and significant resource inefficiencies, with computational costs differing by up to three orders of magnitude among comparable models. These findings suggest RAMP advances agentic model evaluation toward continuous, runtime-observable, and production-grounded assessment.