GTA: Ein Benchmark für Allgemeine Werkzeugagenten

papers.abstract

Ein erheblicher Schwerpunkt wurde darauf gelegt, große Sprachmodelle (LLMs) mit verschiedenen Tools zur Entwicklung von Agenten mit allgemeiner Verwendung zu integrieren. Dies stellt eine Herausforderung für die Tool-Nutzungsfähigkeiten von LLMs dar. Es gibt jedoch offensichtliche Lücken zwischen bestehenden Tool-Nutzungsbewertungen und realen Szenarien. Aktuelle Bewertungen verwenden oft KI-generierte Abfragen, Einzelschrittaufgaben, Dummy-Tools und ausschließlich textbasierte Interaktionen, was es nicht effektiv ermöglicht, die Problemlösungsfähigkeiten der Agenten in realen Szenarien aufzuzeigen. Um dies anzugehen, schlagen wir GTA vor, einen Benchmark für General Tool Agents, der drei Hauptaspekte umfasst: (i) Echte Benutzerabfragen: von Menschen geschriebene Abfragen mit einfachen realen Zielen, aber impliziter Tool-Nutzung, die vom LLM erfordern, die geeigneten Tools zu überlegen und die Lösungsschritte zu planen. (ii) Tatsächlich bereitgestellte Tools: eine Bewertungsplattform mit Tools aus den Kategorien Wahrnehmung, Operation, Logik und Kreativität zur Bewertung der tatsächlichen Leistung der Agenten bei der Aufgabenausführung. (iii) Echte multimodale Eingaben: authentische Bilddateien wie räumliche Szenen, Screenshots von Webseiten, Tabellen, Code-Schnipsel und gedruckte/handschriftliche Materialien, die als Abfragekontexte verwendet werden, um eng mit realen Szenarien in Einklang zu stehen. Wir entwerfen 229 realweltliche Aufgaben und ausführbare Tool-Ketten zur Bewertung gängiger LLMs. Unsere Ergebnisse zeigen, dass reale Benutzerabfragen für bestehende LLMs eine Herausforderung darstellen, wobei GPT-4 weniger als 50 % der Aufgaben abschließt und die meisten LLMs unter 25 % erreichen. Diese Bewertung zeigt die Engpässe in den Tool-Nutzungsfähigkeiten aktueller LLMs in realen Szenarien auf, was zukünftige Richtungen zur Weiterentwicklung von Agenten mit allgemeiner Verwendung aufzeigt. Der Code und das Datenset sind verfügbar unter https://github.com/open-compass/GTA.

English

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.

GTA: Ein Benchmark für Allgemeine Werkzeugagenten

GTA: A Benchmark for General Tool Agents

papers.abstract

Support