AgentBench: Оценка языковых моделей в роли агентов

Аннотация

Крупные языковые модели (LLMs) становятся всё более умными и автономными, ориентируясь на выполнение практических задач в реальном мире, выходящих за рамки традиционных задач обработки естественного языка (NLP). В связи с этим возникла острая необходимость оценивать LLMs как агентов в сложных задачах в интерактивных средах. Мы представляем AgentBench — многомерный развивающийся бенчмарк, который в настоящее время включает 8 различных сред для оценки способностей LLM-агентов к рассуждению и принятию решений в условиях многоходовой генерации с открытым концом. Наши обширные тесты, проведённые на 25 LLM (включая API и модели с открытым исходным кодом), показывают, что, хотя ведущие коммерческие LLM демонстрируют высокую способность действовать как агенты в сложных средах, существует значительный разрыв в производительности между ними и моделями с открытым исходным кодом. AgentBench также является частью более масштабного проекта, направленного на более широкое и глубокое систематическое оценивание LLM. Наборы данных, среды и интегрированный пакет для оценки AgentBench доступны по адресу https://github.com/THUDM/AgentBench.

English

Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench

AgentBench: Оценка языковых моделей в роли агентов

AgentBench: Evaluating LLMs as Agents

Аннотация

Support