ChatPaper.aiChatPaper

Um Estudo Empírico sobre a Automação da Avaliação de Agentes

An Empirical Study of Automating Agent Evaluation

May 12, 2026
Autores: Kang Zhou, Sangmin Woo, Haibo Ding, Kiran Ramnath, Subramanian Chidambaram, Aosong Feng, Vinayak Arannil, Muhyun Kim, Ishan Singh, Darren Wang, Zhichao Xu, Megha Gandhi, Nirmal Prabhu, Soumya Smruti Mishra, Vivek Singh, Gouri Pandeshwar, Lin Lee Cheong
cs.AI

Resumo

A avaliação de agentes requer a análise de comportamentos complexos de múltiplas etapas envolvendo uso de ferramentas e raciocínio intermediário, tornando-a custosa e intensiva em expertise. Surge uma questão natural: os assistentes de codificação de ponta podem automatizar de forma confiável esse processo de avaliação? Nosso estudo mostra que simplesmente instruir esses assistentes é insuficiente para essa tarefa. Sem conhecimento especializado em avaliação de domínio, os assistentes de codificação de ponta alcançam apenas 30% de taxa de sucesso de execução e produzem avaliações superdimensionadas, com média de mais de 12 métricas por agente, indicando que forte capacidade de codificação não se traduz automaticamente em avaliação confiável de agentes. Apresentamos o EvalAgent, um assistente de IA que automatiza todo o pipeline de avaliação de agentes, do início ao fim. O EvalAgent codifica expertise em avaliação de domínio como habilidades de avaliação (instruções procedurais, código e modelos reutilizáveis, e documentação de API recuperada dinamicamente) que se compõem em um pipeline baseado em rastreamento, produzindo artefatos de avaliação completos, incluindo métricas, código executável e relatórios. Para avaliar sistematicamente as avaliações geradas, introduzimos uma estrutura de meta-avaliação junto com o AgentEvalBench, um benchmark composto por 20 agentes, cada um emparelhado com requisitos de avaliação e cenários de teste. Propomos ainda a métrica Eval@1 para medir se o código de avaliação gerado é executado e produz resultados significativos na primeira execução. Nossos experimentos mostram que o EvalAgent produz avaliações focadas, melhorando o Eval@1 de 17,5% para 65% e alcançando 79,5% de preferência de especialistas humanos em relação às abordagens de base. Estudos de ablação adicionais mostram que as habilidades de avaliação são críticas para lidar com avaliações complexas: removê-las faz o Eval@1 cair significativamente de 65% para 30%.
English
Agent evaluation requires assessing complex multi-step behaviors involving tool use and intermediate reasoning, making it costly and expertise-intensive. A natural question arises: can frontier coding assistants reliably automate this evaluation process? Our study shows that simply prompting coding assistants is insufficient for this task. Without domain-specific evaluation knowledge, frontier coding assistants achieve only a 30% execution success rate and produce over-engineered evaluations averaging 12+ metrics per agent, indicating that strong coding ability does not automatically translate to reliable agent evaluation. We introduce EvalAgent, an AI assistant that automates the end-to-end agent evaluation pipeline. EvalAgent encodes evaluation domain expertise as evaluation skills (procedural instructions, reusable code and templates, and dynamically retrieved API documentation) that compose into a trace-based pipeline producing complete evaluation artifacts including metrics, executable code, and reports. To systematically assess generated evaluations, we introduce a meta-evaluation framework alongside AgentEvalBench, a benchmark comprising 20 agents, each paired with evaluation requirements and test scenarios. We further propose the Eval@1 metric to measure whether generated evaluation code both executes and yields meaningful results on the first run. Our experiments show that EvalAgent produces focused evaluations, improving Eval@1 from 17.5% to 65%, and achieving 79.5% human expert preference over baseline approaches. Further ablation studies show that evaluation skills are critical for handling complex evaluation: removing them causes Eval@1 to drop significantly from 65% to 30%.