GTA: Een Benchmark voor Algemene Tool Agents
GTA: A Benchmark for General Tool Agents
July 11, 2024
Auteurs: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI
Samenvatting
Er is aanzienlijke aandacht besteed aan het integreren van grote taalmmodellen (LLMs) met diverse tools bij de ontwikkeling van algemene agents. Dit stelt de tool-gebruikscapaciteiten van LLMs op de proef. Er zijn echter duidelijke kloof tussen bestaande evaluaties van tool-gebruik en real-world scenario's. Huidige evaluaties maken vaak gebruik van AI-gegenereerde queries, eenstaps taken, dummy tools en tekstuele interacties, wat niet effectief de probleemoplossende vaardigheden van de agents in de echte wereld onthult. Om dit aan te pakken, stellen we GTA voor, een benchmark voor General Tool Agents, met drie hoofdaspecten: (i) Echte gebruikersqueries: door mensen geschreven queries met eenvoudige real-world doelen maar impliciet tool-gebruik, waarbij de LLM de geschikte tools moet bepalen en de oplossingsstappen moet plannen. (ii) Echte geïmplementeerde tools: een evaluatieplatform uitgerust met tools in de categorieën perceptie, operatie, logica en creativiteit om de daadwerkelijke taakuitvoeringsprestaties van de agents te evalueren. (iii) Echte multimodale inputs: authentieke beeldbestanden, zoals ruimtelijke scènes, webpagina-screenshots, tabellen, codefragmenten en gedrukte/handgeschreven materialen, gebruikt als de querycontexten om nauw aan te sluiten bij real-world scenario's. We hebben 229 real-world taken en uitvoerbare toolketens ontworpen om mainstream LLMs te evalueren. Onze bevindingen tonen aan dat real-world gebruikersqueries uitdagend zijn voor bestaande LLMs, waarbij GPT-4 minder dan 50% van de taken voltooit en de meeste LLMs onder de 25% scoren. Deze evaluatie onthult de knelpunten in de tool-gebruikscapaciteiten van huidige LLMs in real-world scenario's, wat een toekomstige richting biedt voor het bevorderen van algemene tool agents. De code en dataset zijn beschikbaar op https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs)
with various tools in developing general-purpose agents. This poses a challenge
to LLMs' tool-use capabilities. However, there are evident gaps between
existing tool-use evaluations and real-world scenarios. Current evaluations
often use AI-generated queries, single-step tasks, dummy tools, and text-only
interactions, failing to reveal the agents' real-world problem-solving
abilities effectively. To address this, we propose GTA, a benchmark for General
Tool Agents, featuring three main aspects: (i) Real user queries: human-written
queries with simple real-world objectives but implicit tool-use, requiring the
LLM to reason the suitable tools and plan the solution steps. (ii) Real
deployed tools: an evaluation platform equipped with tools across perception,
operation, logic, and creativity categories to evaluate the agents' actual task
execution performance. (iii) Real multimodal inputs: authentic image files,
such as spatial scenes, web page screenshots, tables, code snippets, and
printed/handwritten materials, used as the query contexts to align with
real-world scenarios closely. We design 229 real-world tasks and executable
tool chains to evaluate mainstream LLMs. Our findings show that real-world user
queries are challenging for existing LLMs, with GPT-4 completing less than 50%
of the tasks and most LLMs achieving below 25%. This evaluation reveals the
bottlenecks in the tool-use capabilities of current LLMs in real-world
scenarios, which provides future direction for advancing general-purpose tool
agents. The code and dataset are available at
https://github.com/open-compass/GTA.