HetAgentBedrijf: Benchmarking van LLM-agenten op Belangrijke Taken in de Echte Wereld
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
December 18, 2024
Auteurs: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
cs.AI
Samenvatting
We hebben dagelijks interactie met computers, of het nu in het dagelijks leven is of op het werk, en veel aspecten van werk kunnen volledig worden uitgevoerd met toegang tot een computer en het internet. Tegelijkertijd is er dankzij verbeteringen in grote taalmodellen (LLM's) ook een snelle ontwikkeling geweest in AI-agenten die interacteren met en veranderingen teweegbrengen in hun omgeving. Maar hoe goed presteren AI-agenten bij het helpen versnellen of zelfs autonoom uitvoeren van taken op het werk? Het antwoord op deze vraag heeft belangrijke implicaties voor zowel de industrie die AI wil integreren in hun werkprocessen, als voor het economisch beleid om de effecten te begrijpen die de adoptie van AI kan hebben op de arbeidsmarkt. Om de voortgang van de prestaties van deze LLM-agenten bij het uitvoeren van real-world professionele taken te meten, introduceren we in dit artikel TheAgentCompany, een uitbreidbare benchmark voor het evalueren van AI-agenten die op vergelijkbare wijze interacteren met de wereld als een digitale werker: door het browsen op het web, het schrijven van code, het uitvoeren van programma's en communiceren met andere collega's. We creëren een zelfstandige omgeving met interne websites en data die een kleine softwarebedrijfsomgeving nabootst, en stellen verschillende taken op die door werknemers in zo'n bedrijf kunnen worden uitgevoerd. We testen basisagenten aangedreven door zowel op gesloten API's gebaseerde als open-gewichten taalmodellen (LM's), en ontdekken dat met de meest competitieve agent 24% van de taken autonoom kan worden voltooid. Dit schetst een genuanceerd beeld van taakautomatisering met LM-agenten - in een setting die een echte werkomgeving simuleert, kunnen veel eenvoudige taken autonoom worden opgelost, maar meer complexe taken op lange termijn zijn nog steeds buiten bereik van huidige systemen.
English
We interact with computers on an everyday basis, be it in everyday life or
work, and many aspects of work can be done entirely with access to a computer
and the Internet. At the same time, thanks to improvements in large language
models (LLMs), there has also been a rapid development in AI agents that
interact with and affect change in their surrounding environments. But how
performant are AI agents at helping to accelerate or even autonomously perform
work-related tasks? The answer to this question has important implications for
both industry looking to adopt AI into their workflows, and for economic policy
to understand the effects that adoption of AI may have on the labor market. To
measure the progress of these LLM agents' performance on performing real-world
professional tasks, in this paper, we introduce TheAgentCompany, an extensible
benchmark for evaluating AI agents that interact with the world in similar ways
to those of a digital worker: by browsing the Web, writing code, running
programs, and communicating with other coworkers. We build a self-contained
environment with internal web sites and data that mimics a small software
company environment, and create a variety of tasks that may be performed by
workers in such a company. We test baseline agents powered by both closed
API-based and open-weights language models (LMs), and find that with the most
competitive agent, 24% of the tasks can be completed autonomously. This paints
a nuanced picture on task automation with LM agents -- in a setting simulating
a real workplace, a good portion of simpler tasks could be solved autonomously,
but more difficult long-horizon tasks are still beyond the reach of current
systems.