Levantamento sobre Avaliação de Agentes Baseados em Modelos de Linguagem de Grande Escala (LLM)

Resumo

O surgimento de agentes baseados em LLMs (Large Language Models) representa uma mudança de paradigma na IA, permitindo que sistemas autônomos planejem, raciocinem, utilizem ferramentas e mantenham memória enquanto interagem com ambientes dinâmicos. Este artigo apresenta o primeiro levantamento abrangente das metodologias de avaliação para esses agentes cada vez mais capazes. Analisamos sistematicamente benchmarks e frameworks de avaliação em quatro dimensões críticas: (1) capacidades fundamentais dos agentes, incluindo planejamento, uso de ferramentas, autorreflexão e memória; (2) benchmarks específicos para aplicações em agentes web, engenharia de software, científicos e conversacionais; (3) benchmarks para agentes generalistas; e (4) frameworks para avaliação de agentes. Nossa análise revela tendências emergentes, incluindo uma mudança em direção a avaliações mais realistas e desafiadoras, com benchmarks continuamente atualizados. Também identificamos lacunas críticas que pesquisas futuras devem abordar — particularmente na avaliação de custo-eficiência, segurança e robustez, e no desenvolvimento de métodos de avaliação refinados e escaláveis. Este levantamento mapeia o cenário em rápida evolução da avaliação de agentes, revela as tendências emergentes no campo, identifica as limitações atuais e propõe direções para pesquisas futuras.

English

The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

Levantamento sobre Avaliação de Agentes Baseados em Modelos de Linguagem de Grande Escala (LLM)

Survey on Evaluation of LLM-based Agents

Resumo

Support