ChatPaper.aiChatPaper

AgentBench: Evaluando Modelos de Lenguaje como Agentes

AgentBench: Evaluating LLMs as Agents

August 7, 2023
Autores: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) están volviéndose cada vez más inteligentes y autónomos, enfocándose en misiones pragmáticas del mundo real que van más allá de las tareas tradicionales de Procesamiento del Lenguaje Natural (NLP). Como resultado, ha surgido una necesidad urgente de evaluar los LLMs como agentes en tareas desafiantes dentro de entornos interactivos. Presentamos AgentBench, un punto de referencia multidimensional y en evolución que actualmente consta de 8 entornos distintos para evaluar las capacidades de razonamiento y toma de decisiones de los LLMs como agentes en un entorno de generación abierta y de múltiples turnos. Nuestras pruebas extensas sobre 25 LLMs (incluyendo APIs y modelos de código abierto) muestran que, aunque los principales LLMs comerciales presentan una fuerte capacidad para actuar como agentes en entornos complejos, existe una disparidad significativa en el rendimiento entre ellos y sus competidores de código abierto. Además, AgentBench sirve como un componente de un proyecto en curso con una cobertura más amplia y una consideración más profunda hacia la evaluación sistemática de los LLMs. Los conjuntos de datos, entornos y un paquete de evaluación integrado para AgentBench están disponibles en https://github.com/THUDM/AgentBench.
English
Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench
PDF250December 15, 2024