Levantamento sobre Avaliação de Agentes Baseados em Modelos de Linguagem de Grande Escala (LLM)
Survey on Evaluation of LLM-based Agents
March 20, 2025
Autores: Asaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer
cs.AI
Resumo
O surgimento de agentes baseados em LLMs (Large Language Models) representa uma mudança de paradigma na IA, permitindo que sistemas autônomos planejem, raciocinem, utilizem ferramentas e mantenham memória enquanto interagem com ambientes dinâmicos. Este artigo apresenta o primeiro levantamento abrangente das metodologias de avaliação para esses agentes cada vez mais capazes. Analisamos sistematicamente benchmarks e frameworks de avaliação em quatro dimensões críticas: (1) capacidades fundamentais dos agentes, incluindo planejamento, uso de ferramentas, autorreflexão e memória; (2) benchmarks específicos para aplicações em agentes web, engenharia de software, científicos e conversacionais; (3) benchmarks para agentes generalistas; e (4) frameworks para avaliação de agentes. Nossa análise revela tendências emergentes, incluindo uma mudança em direção a avaliações mais realistas e desafiadoras, com benchmarks continuamente atualizados. Também identificamos lacunas críticas que pesquisas futuras devem abordar — particularmente na avaliação de custo-eficiência, segurança e robustez, e no desenvolvimento de métodos de avaliação refinados e escaláveis. Este levantamento mapeia o cenário em rápida evolução da avaliação de agentes, revela as tendências emergentes no campo, identifica as limitações atuais e propõe direções para pesquisas futuras.
English
The emergence of LLM-based agents represents a paradigm shift in AI, enabling
autonomous systems to plan, reason, use tools, and maintain memory while
interacting with dynamic environments. This paper provides the first
comprehensive survey of evaluation methodologies for these increasingly capable
agents. We systematically analyze evaluation benchmarks and frameworks across
four critical dimensions: (1) fundamental agent capabilities, including
planning, tool use, self-reflection, and memory; (2) application-specific
benchmarks for web, software engineering, scientific, and conversational
agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating
agents. Our analysis reveals emerging trends, including a shift toward more
realistic, challenging evaluations with continuously updated benchmarks. We
also identify critical gaps that future research must address-particularly in
assessing cost-efficiency, safety, and robustness, and in developing
fine-grained, and scalable evaluation methods. This survey maps the rapidly
evolving landscape of agent evaluation, reveals the emerging trends in the
field, identifies current limitations, and proposes directions for future
research.Summary
AI-Generated Summary