ChatPaper.aiChatPaper

TheAgentCompany: Evaluación comparativa de Agentes LLM en Tareas Consecuentes del Mundo Real

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

December 18, 2024
Autores: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
cs.AI

Resumen

Interactuamos con computadoras a diario, ya sea en la vida cotidiana o en el trabajo, y muchos aspectos laborales pueden realizarse completamente con acceso a una computadora e Internet. Al mismo tiempo, gracias a las mejoras en los grandes modelos de lenguaje (LLMs), también ha habido un rápido desarrollo en agentes de IA que interactúan y provocan cambios en sus entornos circundantes. Pero, ¿qué tan eficientes son los agentes de IA para ayudar a acelerar o incluso realizar de forma autónoma tareas laborales? La respuesta a esta pregunta tiene importantes implicaciones tanto para la industria que busca adoptar la IA en sus flujos de trabajo, como para la política económica para comprender los efectos que la adopción de la IA puede tener en el mercado laboral. Para medir el progreso del rendimiento de estos agentes LLM en la realización de tareas profesionales del mundo real, en este documento, presentamos TheAgentCompany, un banco de pruebas ampliable para evaluar agentes de IA que interactúan con el mundo de manera similar a la de un trabajador digital: navegando por la web, escribiendo código, ejecutando programas y comunicándose con otros compañeros de trabajo. Creamos un entorno autosuficiente con sitios web internos y datos que imitan un entorno de una pequeña empresa de software, y creamos una variedad de tareas que podrían ser realizadas por trabajadores en dicha empresa. Probamos agentes de referencia alimentados tanto por modelos de lenguaje (LMs) basados en API cerradas como por modelos de lenguaje con pesos abiertos, y descubrimos que con el agente más competitivo, el 24% de las tareas pueden completarse de forma autónoma. Esto ofrece una imagen matizada sobre la automatización de tareas con agentes LM: en un entorno que simula un lugar de trabajo real, una buena parte de las tareas más simples podrían resolverse de forma autónoma, pero las tareas más difíciles a largo plazo aún están fuera del alcance de los sistemas actuales.
English
We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.

Summary

AI-Generated Summary

PDF522December 19, 2024