Een empirische studie naar het automatiseren van agentenevaluatie

Samenvatting

Agentenevaluatie vereist het beoordelen van complexe meerstapsgedragingen waarbij gebruik wordt gemaakt van hulpmiddelen en tussentijdse redeneringen, wat het kostbaar en expertise-intensief maakt. Een voor de hand liggende vraag rijst: kunnen geavanceerde codeerassistenten dit evaluatieproces op betrouwbare wijze automatiseren? Onze studie toont aan dat het simpelweg aansturen van codeerassistenten onvoldoende is voor deze taak. Zonder domeinspecifieke evaluatiekennis behalen geavanceerde codeerassistenten slechts een uitvoeringssuccespercentage van 30% en produceren ze overontworpen evaluaties met gemiddeld 12+ metrieken per agent, wat aangeeft dat sterke codeervaardigheid niet automatisch leidt tot betrouwbare agentenevaluatie. We introduceren EvalAgent, een AI-assistent die de end-to-end agentenevaluatiepijplijn automatiseert. EvalAgent codeert evaluatiedomeinexpertise als evaluatievaardigheden (procedurele instructies, herbruikbare code en sjablonen, en dynamisch opgehaalde API-documentatie) die samen een traceerbare pijplijn vormen die volledige evaluatieartefacten produceert, waaronder metrieken, uitvoerbare code en rapporten. Om gegenereerde evaluaties systematisch te beoordelen, introduceren we een meta-evaluatiekader samen met AgentEvalBench, een benchmark bestaande uit 20 agenten, elk gekoppeld aan evaluatievereisten en testsituaties. Verder stellen we de Eval@1-metriek voor om te meten of gegenereerde evaluatiecode zowel wordt uitgevoerd als zinvolle resultaten oplevert bij de eerste run. Onze experimenten tonen aan dat EvalAgent gerichte evaluaties produceert, met een verbetering van Eval@1 van 17,5% naar 65% en een menselijke expertvoorkeur van 79,5% ten opzichte van basisbenaderingen. Verdere ablatiestudies tonen aan dat evaluatievaardigheden cruciaal zijn voor het afhandelen van complexe evaluaties: het verwijderen ervan zorgt dat Eval@1 aanzienlijk daalt van 65% naar 30%.

English

Agent evaluation requires assessing complex multi-step behaviors involving tool use and intermediate reasoning, making it costly and expertise-intensive. A natural question arises: can frontier coding assistants reliably automate this evaluation process? Our study shows that simply prompting coding assistants is insufficient for this task. Without domain-specific evaluation knowledge, frontier coding assistants achieve only a 30% execution success rate and produce over-engineered evaluations averaging 12+ metrics per agent, indicating that strong coding ability does not automatically translate to reliable agent evaluation. We introduce EvalAgent, an AI assistant that automates the end-to-end agent evaluation pipeline. EvalAgent encodes evaluation domain expertise as evaluation skills (procedural instructions, reusable code and templates, and dynamically retrieved API documentation) that compose into a trace-based pipeline producing complete evaluation artifacts including metrics, executable code, and reports. To systematically assess generated evaluations, we introduce a meta-evaluation framework alongside AgentEvalBench, a benchmark comprising 20 agents, each paired with evaluation requirements and test scenarios. We further propose the Eval@1 metric to measure whether generated evaluation code both executes and yields meaningful results on the first run. Our experiments show that EvalAgent produces focused evaluations, improving Eval@1 from 17.5% to 65%, and achieving 79.5% human expert preference over baseline approaches. Further ablation studies show that evaluation skills are critical for handling complex evaluation: removing them causes Eval@1 to drop significantly from 65% to 30%.