Levantamento sobre Avaliação de Agentes Baseados em Modelos de Linguagem de Grande Escala (LLM)Survey on Evaluation of LLM-based Agents
O surgimento de agentes baseados em LLMs (Large Language Models) representa uma mudança de paradigma na IA, permitindo que sistemas autônomos planejem, raciocinem, utilizem ferramentas e mantenham memória enquanto interagem com ambientes dinâmicos. Este artigo apresenta o primeiro levantamento abrangente das metodologias de avaliação para esses agentes cada vez mais capazes. Analisamos sistematicamente benchmarks e frameworks de avaliação em quatro dimensões críticas: (1) capacidades fundamentais dos agentes, incluindo planejamento, uso de ferramentas, autorreflexão e memória; (2) benchmarks específicos para aplicações em agentes web, engenharia de software, científicos e conversacionais; (3) benchmarks para agentes generalistas; e (4) frameworks para avaliação de agentes. Nossa análise revela tendências emergentes, incluindo uma mudança em direção a avaliações mais realistas e desafiadoras, com benchmarks continuamente atualizados. Também identificamos lacunas críticas que pesquisas futuras devem abordar — particularmente na avaliação de custo-eficiência, segurança e robustez, e no desenvolvimento de métodos de avaliação refinados e escaláveis. Este levantamento mapeia o cenário em rápida evolução da avaliação de agentes, revela as tendências emergentes no campo, identifica as limitações atuais e propõe direções para pesquisas futuras.