ChatPaper.aiChatPaper

AgentBench: Evaluatie van LLM's als Agents

AgentBench: Evaluating LLMs as Agents

August 7, 2023
Auteurs: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) worden steeds slimmer en autonomer, waarbij ze zich richten op praktische taken in de echte wereld die verder gaan dan traditionele NLP-taken. Hierdoor is er een dringende behoefte ontstaan om LLM's te evalueren als agents in uitdagende taken binnen interactieve omgevingen. Wij presenteren AgentBench, een multidimensionaal evoluerend benchmark dat momenteel bestaat uit 8 verschillende omgevingen om de redeneer- en besluitvormingsvaardigheden van LLM's als agents te beoordelen in een multi-turn open-ended generatieomgeving. Onze uitgebreide test over 25 LLM's (inclusief API's en open-source modellen) toont aan dat, hoewel topcommerciële LLM's een sterke vaardigheid vertonen om als agents te functioneren in complexe omgevingen, er een aanzienlijk prestatieverschil bestaat tussen hen en open-source concurrenten. Het dient ook als onderdeel van een doorlopend project met een bredere dekking en diepere aandacht voor systematische evaluatie van LLM's. Datasets, omgevingen en een geïntegreerd evaluatiepakket voor AgentBench zijn vrijgegeven op https://github.com/THUDM/AgentBench.
English
Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench
PDF250February 8, 2026