Die Agentenfirma: Benchmarking von LLM-Agenten bei bedeutsamen realen Aufgaben
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
December 18, 2024
Autoren: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
cs.AI
Zusammenfassung
Wir interagieren täglich mit Computern, sei es im Alltag oder bei der Arbeit, und viele Aspekte der Arbeit können vollständig mit Zugang zu einem Computer und dem Internet erledigt werden. Gleichzeitig hat es dank Verbesserungen in großen Sprachmodellen (LLMs) auch eine rasante Entwicklung von KI-Agenten gegeben, die mit ihrer Umgebung interagieren und Veränderungen bewirken. Doch wie leistungsfähig sind KI-Agenten dabei, Arbeitsaufgaben zu beschleunigen oder sogar autonom auszuführen? Die Antwort auf diese Frage hat wichtige Auswirkungen sowohl für die Industrie, die KI in ihre Arbeitsabläufe integrieren möchte, als auch für die Wirtschaftspolitik, um die Auswirkungen der KI-Adoption auf den Arbeitsmarkt zu verstehen. Um den Fortschritt dieser LLM-Agenten bei der Ausführung realer beruflicher Aufgaben zu messen, stellen wir in diesem Papier TheAgentCompany vor, einen erweiterbaren Benchmark zur Bewertung von KI-Agenten, die auf ähnliche Weise mit der Welt interagieren wie ein digitaler Arbeiter: durch das Durchsuchen des Webs, das Schreiben von Code, das Ausführen von Programmen und die Kommunikation mit anderen Kollegen. Wir erstellen eine eigenständige Umgebung mit internen Websites und Daten, die eine kleine Softwareunternehmensumgebung nachahmt, und erstellen eine Vielzahl von Aufgaben, die von Mitarbeitern in einem solchen Unternehmen ausgeführt werden könnten. Wir testen Baseline-Agenten, die von sowohl API-basierten geschlossenen als auch offenen Gewichtungs-Sprachmodellen (LMs) betrieben werden, und stellen fest, dass mit dem leistungsfähigsten Agenten 24% der Aufgaben autonom abgeschlossen werden können. Dies zeichnet ein differenziertes Bild der Aufgabenautomatisierung mit LM-Agenten - in einer Umgebung, die einen realen Arbeitsplatz simuliert, könnten viele einfachere Aufgaben autonom gelöst werden, aber schwierigere langfristige Aufgaben sind immer noch außerhalb der Reichweite aktueller Systeme.
English
We interact with computers on an everyday basis, be it in everyday life or
work, and many aspects of work can be done entirely with access to a computer
and the Internet. At the same time, thanks to improvements in large language
models (LLMs), there has also been a rapid development in AI agents that
interact with and affect change in their surrounding environments. But how
performant are AI agents at helping to accelerate or even autonomously perform
work-related tasks? The answer to this question has important implications for
both industry looking to adopt AI into their workflows, and for economic policy
to understand the effects that adoption of AI may have on the labor market. To
measure the progress of these LLM agents' performance on performing real-world
professional tasks, in this paper, we introduce TheAgentCompany, an extensible
benchmark for evaluating AI agents that interact with the world in similar ways
to those of a digital worker: by browsing the Web, writing code, running
programs, and communicating with other coworkers. We build a self-contained
environment with internal web sites and data that mimics a small software
company environment, and create a variety of tasks that may be performed by
workers in such a company. We test baseline agents powered by both closed
API-based and open-weights language models (LMs), and find that with the most
competitive agent, 24% of the tasks can be completed autonomously. This paints
a nuanced picture on task automation with LM agents -- in a setting simulating
a real workplace, a good portion of simpler tasks could be solved autonomously,
but more difficult long-horizon tasks are still beyond the reach of current
systems.Summary
AI-Generated Summary