ChatPaper.aiChatPaper

AgentBench: Оценка языковых моделей в роли агентов

AgentBench: Evaluating LLMs as Agents

August 7, 2023
Авторы: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI

Аннотация

Крупные языковые модели (LLMs) становятся всё более умными и автономными, ориентируясь на выполнение практических задач в реальном мире, выходящих за рамки традиционных задач обработки естественного языка (NLP). В связи с этим возникла острая необходимость оценивать LLMs как агентов в сложных задачах в интерактивных средах. Мы представляем AgentBench — многомерный развивающийся бенчмарк, который в настоящее время включает 8 различных сред для оценки способностей LLM-агентов к рассуждению и принятию решений в условиях многоходовой генерации с открытым концом. Наши обширные тесты, проведённые на 25 LLM (включая API и модели с открытым исходным кодом), показывают, что, хотя ведущие коммерческие LLM демонстрируют высокую способность действовать как агенты в сложных средах, существует значительный разрыв в производительности между ними и моделями с открытым исходным кодом. AgentBench также является частью более масштабного проекта, направленного на более широкое и глубокое систематическое оценивание LLM. Наборы данных, среды и интегрированный пакет для оценки AgentBench доступны по адресу https://github.com/THUDM/AgentBench.
English
Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench
PDF250December 15, 2024