A Necessidade de uma Estrutura Unificada para Avaliação de Agentes Baseados em LLM

Resumo

Com o advento dos Modelos de Linguagem de Grande Porte (LLMs), os agentes de propósito geral registaram avanços fundamentais. No entanto, a avaliação destes agentes apresenta desafios únicos que os distinguem dos benchmarks estáticos de Perguntas e Respostas (QA). Observamos que os benchmarks atuais para agentes estão fortemente confundidos por fatores extrínsecos, incluindo instruções de sistema (prompts), configurações de conjuntos de ferramentas e dinâmicas ambientais. As avaliações existentes frequentemente dependem de estruturas fragmentadas e específicas de cada investigador, nas quais a engenharia de prompts para raciocínio e uso de ferramentas varia significativamente, dificultando a atribuição de ganhos de desempenho ao próprio modelo. Adicionalmente, a falta de dados ambientais padronizados leva a erros não rastreáveis e resultados não reproduzíveis. Esta falta de padronização introduz uma injustiça e opacidade substanciais no campo. Propomos que uma estrutura de avaliação unificada é essencial para o avanço rigoroso da avaliação de agentes. Para este fim, introduzimos uma proposta destinada a padronizar a avaliação de agentes.

English

With the advent of Large Language Models (LLMs), general-purpose agents have seen fundamental advancements. However, evaluating these agents presents unique challenges that distinguish them from static QA benchmarks. We observe that current agent benchmarks are heavily confounded by extraneous factors, including system prompts, toolset configurations, and environmental dynamics. Existing evaluations often rely on fragmented, researcher-specific frameworks where the prompt engineering for reasoning and tool usage varies significantly, making it difficult to attribute performance gains to the model itself. Additionally, the lack of standardized environmental data leads to untraceable errors and non-reproducible results. This lack of standardization introduces substantial unfairness and opacity into the field. We propose that a unified evaluation framework is essential for the rigorous advancement of agent evaluation. To this end, we introduce a proposal aimed at standardizing agent evaluation.

A Necessidade de uma Estrutura Unificada para Avaliação de Agentes Baseados em LLM

The Necessity of a Unified Framework for LLM-Based Agent Evaluation

Resumo

Support