ChatPaper.aiChatPaper

La société d'agents : Évaluation des agents LLM sur des tâches réelles à conséquences dans le monde réel

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

December 18, 2024
Auteurs: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
cs.AI

Résumé

Nous interagissons avec des ordinateurs quotidiennement, que ce soit dans la vie de tous les jours ou au travail, et de nombreux aspects du travail peuvent être entièrement réalisés avec un ordinateur et Internet. En parallèle, grâce aux améliorations des grands modèles de langage (GML), il y a également eu un développement rapide des agents d'IA qui interagissent et influencent leur environnement. Mais dans quelle mesure les agents d'IA sont-ils performants pour aider à accélérer ou même effectuer de manière autonome des tâches liées au travail ? La réponse à cette question a des implications importantes à la fois pour les entreprises cherchant à intégrer l'IA dans leurs flux de travail, et pour les politiques économiques afin de comprendre les effets que l'adoption de l'IA peut avoir sur le marché du travail. Pour mesurer les progrès de ces agents GML dans l'exécution de tâches professionnelles du monde réel, dans cet article, nous présentons TheAgentCompany, un banc d'essai extensible pour évaluer les agents d'IA qui interagissent avec le monde de manière similaire à celle d'un travailleur numérique : en naviguant sur le Web, en écrivant du code, en exécutant des programmes et en communiquant avec d'autres collègues. Nous créons un environnement autonome avec des sites Web internes et des données qui imitent un environnement de petite entreprise logicielle, et nous créons une variété de tâches pouvant être réalisées par des travailleurs dans une telle entreprise. Nous testons des agents de base alimentés à la fois par des modèles de langage (ML) basés sur des API fermées et des modèles de langage à poids ouverts, et constatons qu'avec l'agent le plus compétitif, 24 % des tâches peuvent être effectuées de manière autonome. Cela offre une image nuancée de l'automatisation des tâches avec les agents ML - dans un environnement simulant un lieu de travail réel, une bonne partie des tâches plus simples pourraient être résolues de manière autonome, mais les tâches plus difficiles à long terme restent encore hors de portée des systèmes actuels.
English
We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.

Summary

AI-Generated Summary

PDF522December 19, 2024