ChatPaper.aiChatPaper

AgentBench : Évaluation des LLM en tant qu'agents

AgentBench: Evaluating LLMs as Agents

August 7, 2023
papers.authors: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) deviennent de plus en plus intelligents et autonomes, visant des missions pragmatiques dans le monde réel au-delà des tâches traditionnelles de traitement du langage naturel (NLP). Par conséquent, il est devenu urgent d'évaluer les LLMs en tant qu'agents sur des tâches complexes dans des environnements interactifs. Nous présentons AgentBench, un benchmark multidimensionnel et évolutif qui comprend actuellement 8 environnements distincts pour évaluer les capacités de raisonnement et de prise de décision des LLMs en tant qu'agents dans un contexte de génération ouverte et multi-tours. Nos tests approfondis sur 25 LLMs (incluant des modèles commerciaux et open source) montrent que, bien que les meilleurs LLMs commerciaux démontrent une forte capacité à agir en tant qu'agents dans des environnements complexes, il existe un écart significatif de performance entre eux et leurs concurrents open source. AgentBench s'inscrit également dans le cadre d'un projet plus vaste visant une couverture plus étendue et une évaluation systématique approfondie des LLMs. Les jeux de données, les environnements et un package d'évaluation intégré pour AgentBench sont disponibles à l'adresse suivante : https://github.com/THUDM/AgentBench.
English
Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench
PDF250December 15, 2024