GTA: Ein Benchmark für Allgemeine Werkzeugagenten
GTA: A Benchmark for General Tool Agents
July 11, 2024
Autoren: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI
Zusammenfassung
Ein erheblicher Schwerpunkt wurde darauf gelegt, große Sprachmodelle (LLMs) mit verschiedenen Tools zur Entwicklung von Agenten mit allgemeiner Verwendung zu integrieren. Dies stellt eine Herausforderung für die Tool-Nutzungsfähigkeiten von LLMs dar. Es gibt jedoch offensichtliche Lücken zwischen bestehenden Tool-Nutzungsbewertungen und realen Szenarien. Aktuelle Bewertungen verwenden oft KI-generierte Abfragen, Einzelschrittaufgaben, Dummy-Tools und ausschließlich textbasierte Interaktionen, was es nicht effektiv ermöglicht, die Problemlösungsfähigkeiten der Agenten in realen Szenarien aufzuzeigen. Um dies anzugehen, schlagen wir GTA vor, einen Benchmark für General Tool Agents, der drei Hauptaspekte umfasst: (i) Echte Benutzerabfragen: von Menschen geschriebene Abfragen mit einfachen realen Zielen, aber impliziter Tool-Nutzung, die vom LLM erfordern, die geeigneten Tools zu überlegen und die Lösungsschritte zu planen. (ii) Tatsächlich bereitgestellte Tools: eine Bewertungsplattform mit Tools aus den Kategorien Wahrnehmung, Operation, Logik und Kreativität zur Bewertung der tatsächlichen Leistung der Agenten bei der Aufgabenausführung. (iii) Echte multimodale Eingaben: authentische Bilddateien wie räumliche Szenen, Screenshots von Webseiten, Tabellen, Code-Schnipsel und gedruckte/handschriftliche Materialien, die als Abfragekontexte verwendet werden, um eng mit realen Szenarien in Einklang zu stehen. Wir entwerfen 229 realweltliche Aufgaben und ausführbare Tool-Ketten zur Bewertung gängiger LLMs. Unsere Ergebnisse zeigen, dass reale Benutzerabfragen für bestehende LLMs eine Herausforderung darstellen, wobei GPT-4 weniger als 50 % der Aufgaben abschließt und die meisten LLMs unter 25 % erreichen. Diese Bewertung zeigt die Engpässe in den Tool-Nutzungsfähigkeiten aktueller LLMs in realen Szenarien auf, was zukünftige Richtungen zur Weiterentwicklung von Agenten mit allgemeiner Verwendung aufzeigt. Der Code und das Datenset sind verfügbar unter https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs)
with various tools in developing general-purpose agents. This poses a challenge
to LLMs' tool-use capabilities. However, there are evident gaps between
existing tool-use evaluations and real-world scenarios. Current evaluations
often use AI-generated queries, single-step tasks, dummy tools, and text-only
interactions, failing to reveal the agents' real-world problem-solving
abilities effectively. To address this, we propose GTA, a benchmark for General
Tool Agents, featuring three main aspects: (i) Real user queries: human-written
queries with simple real-world objectives but implicit tool-use, requiring the
LLM to reason the suitable tools and plan the solution steps. (ii) Real
deployed tools: an evaluation platform equipped with tools across perception,
operation, logic, and creativity categories to evaluate the agents' actual task
execution performance. (iii) Real multimodal inputs: authentic image files,
such as spatial scenes, web page screenshots, tables, code snippets, and
printed/handwritten materials, used as the query contexts to align with
real-world scenarios closely. We design 229 real-world tasks and executable
tool chains to evaluate mainstream LLMs. Our findings show that real-world user
queries are challenging for existing LLMs, with GPT-4 completing less than 50%
of the tasks and most LLMs achieving below 25%. This evaluation reveals the
bottlenecks in the tool-use capabilities of current LLMs in real-world
scenarios, which provides future direction for advancing general-purpose tool
agents. The code and dataset are available at
https://github.com/open-compass/GTA.Summary
AI-Generated Summary