Um Estudo Empírico sobre a Automação da Avaliação de Agentes

Resumo

A avaliação de agentes requer a análise de comportamentos complexos de múltiplas etapas envolvendo uso de ferramentas e raciocínio intermediário, tornando-a custosa e intensiva em expertise. Surge uma questão natural: os assistentes de codificação de ponta podem automatizar de forma confiável esse processo de avaliação? Nosso estudo mostra que simplesmente instruir esses assistentes é insuficiente para essa tarefa. Sem conhecimento especializado em avaliação de domínio, os assistentes de codificação de ponta alcançam apenas 30% de taxa de sucesso de execução e produzem avaliações superdimensionadas, com média de mais de 12 métricas por agente, indicando que forte capacidade de codificação não se traduz automaticamente em avaliação confiável de agentes. Apresentamos o EvalAgent, um assistente de IA que automatiza todo o pipeline de avaliação de agentes, do início ao fim. O EvalAgent codifica expertise em avaliação de domínio como habilidades de avaliação (instruções procedurais, código e modelos reutilizáveis, e documentação de API recuperada dinamicamente) que se compõem em um pipeline baseado em rastreamento, produzindo artefatos de avaliação completos, incluindo métricas, código executável e relatórios. Para avaliar sistematicamente as avaliações geradas, introduzimos uma estrutura de meta-avaliação junto com o AgentEvalBench, um benchmark composto por 20 agentes, cada um emparelhado com requisitos de avaliação e cenários de teste. Propomos ainda a métrica Eval@1 para medir se o código de avaliação gerado é executado e produz resultados significativos na primeira execução. Nossos experimentos mostram que o EvalAgent produz avaliações focadas, melhorando o Eval@1 de 17,5% para 65% e alcançando 79,5% de preferência de especialistas humanos em relação às abordagens de base. Estudos de ablação adicionais mostram que as habilidades de avaliação são críticas para lidar com avaliações complexas: removê-las faz o Eval@1 cair significativamente de 65% para 30%.

English

Agent evaluation requires assessing complex multi-step behaviors involving tool use and intermediate reasoning, making it costly and expertise-intensive. A natural question arises: can frontier coding assistants reliably automate this evaluation process? Our study shows that simply prompting coding assistants is insufficient for this task. Without domain-specific evaluation knowledge, frontier coding assistants achieve only a 30% execution success rate and produce over-engineered evaluations averaging 12+ metrics per agent, indicating that strong coding ability does not automatically translate to reliable agent evaluation. We introduce EvalAgent, an AI assistant that automates the end-to-end agent evaluation pipeline. EvalAgent encodes evaluation domain expertise as evaluation skills (procedural instructions, reusable code and templates, and dynamically retrieved API documentation) that compose into a trace-based pipeline producing complete evaluation artifacts including metrics, executable code, and reports. To systematically assess generated evaluations, we introduce a meta-evaluation framework alongside AgentEvalBench, a benchmark comprising 20 agents, each paired with evaluation requirements and test scenarios. We further propose the Eval@1 metric to measure whether generated evaluation code both executes and yields meaningful results on the first run. Our experiments show that EvalAgent produces focused evaluations, improving Eval@1 from 17.5% to 65%, and achieving 79.5% human expert preference over baseline approaches. Further ablation studies show that evaluation skills are critical for handling complex evaluation: removing them causes Eval@1 to drop significantly from 65% to 30%.