AgentBench: Bewertung von LLMs als Agenten
AgentBench: Evaluating LLMs as Agents
August 7, 2023
papers.authors: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend intelligenter und autonomer und zielen auf praktische Missionen in der realen Welt ab, die über traditionelle NLP-Aufgaben hinausgehen. Infolgedessen besteht ein dringender Bedarf, LLMs als Agenten in interaktiven Umgebungen mit anspruchsvollen Aufgaben zu evaluieren. Wir präsentieren AgentBench, einen mehrdimensionalen, sich weiterentwickelnden Benchmark, der derzeit aus 8 verschiedenen Umgebungen besteht, um die Fähigkeiten von LLMs als Agenten in Bezug auf logisches Denken und Entscheidungsfindung in einem mehrstufigen, offenen Generierungssetting zu bewerten. Unsere umfangreichen Tests mit 25 LLMs (einschließlich APIs und Open-Source-Modellen) zeigen, dass zwar führende kommerzielle LLMs eine starke Fähigkeit aufweisen, als Agenten in komplexen Umgebungen zu agieren, es jedoch eine erhebliche Leistungslücke zwischen ihnen und Open-Source-Konkurrenten gibt. Es dient auch als Bestandteil eines laufenden Projekts mit breiterer Abdeckung und tieferer Berücksichtigung einer systematischen LLM-Evaluierung. Datensätze, Umgebungen und ein integriertes Evaluationspaket für AgentBench sind unter https://github.com/THUDM/AgentBench veröffentlicht.
English
Large Language Models (LLMs) are becoming increasingly smart and autonomous,
targeting real-world pragmatic missions beyond traditional NLP tasks. As a
result, there has been an urgent need to evaluate LLMs as agents on challenging
tasks in interactive environments. We present AgentBench, a multi-dimensional
evolving benchmark that currently consists of 8 distinct environments to assess
LLM-as-Agent's reasoning and decision-making abilities in a multi-turn
open-ended generation setting. Our extensive test over 25 LLMs (including APIs
and open-sourced models) shows that, while top commercial LLMs present a strong
ability of acting as agents in complex environments, there is a significant
disparity in performance between them and open-sourced competitors. It also
serves as a component of an ongoing project with wider coverage and deeper
consideration towards systematic LLM evaluation. Datasets, environments, and an
integrated evaluation package for AgentBench are released at
https://github.com/THUDM/AgentBench