ChatPaper.aiChatPaper

AgentBench: Avaliando LLMs como Agentes

AgentBench: Evaluating LLMs as Agents

August 7, 2023
Autores: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) estão se tornando cada vez mais inteligentes e autônomos, visando missões pragmáticas do mundo real além das tarefas tradicionais de PLN. Como resultado, tem havido uma necessidade urgente de avaliar LLMs como agentes em tarefas desafiadoras em ambientes interativos. Apresentamos o AgentBench, um benchmark multidimensional e em evolução que atualmente consiste em 8 ambientes distintos para avaliar as habilidades de raciocínio e tomada de decisão de LLMs como agentes em um cenário de geração aberta e multi-turnos. Nossos extensos testes com 25 LLMs (incluindo APIs e modelos de código aberto) mostram que, embora os principais LLMs comerciais apresentem uma forte capacidade de atuar como agentes em ambientes complexos, há uma disparidade significativa no desempenho entre eles e os concorrentes de código aberto. Ele também serve como um componente de um projeto contínuo com maior cobertura e consideração mais profunda em relação à avaliação sistemática de LLMs. Conjuntos de dados, ambientes e um pacote de avaliação integrado para o AgentBench são disponibilizados em https://github.com/THUDM/AgentBench.
English
Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench
PDF250February 8, 2026