GTA: Un Benchmark per Agenti Strumentali Generali
GTA: A Benchmark for General Tool Agents
July 11, 2024
Autori: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI
Abstract
Un'attenzione significativa è stata rivolta all'integrazione di modelli linguistici di grandi dimensioni (LLM) con vari strumenti nello sviluppo di agenti a scopo generale. Ciò rappresenta una sfida per le capacità di utilizzo degli strumenti degli LLM. Tuttavia, esistono evidenti lacune tra le valutazioni esistenti sull'uso degli strumenti e gli scenari del mondo reale. Le valutazioni attuali spesso utilizzano query generate dall'IA, compiti a singolo passaggio, strumenti fittizi e interazioni esclusivamente testuali, non riuscendo a rivelare efficacemente le capacità di risoluzione dei problemi degli agenti nel mondo reale. Per affrontare questo problema, proponiamo GTA, un benchmark per Agenti Strumentali Generali, che presenta tre aspetti principali: (i) Query reali degli utenti: query scritte da esseri umani con obiettivi semplici del mondo reale ma con un uso implicito degli strumenti, che richiedono all'LLM di ragionare sugli strumenti adatti e pianificare i passaggi della soluzione. (ii) Strumenti realmente implementati: una piattaforma di valutazione dotata di strumenti nelle categorie di percezione, operazione, logica e creatività per valutare le prestazioni effettive degli agenti nell'esecuzione dei compiti. (iii) Input multimodali reali: file di immagini autentici, come scene spaziali, screenshot di pagine web, tabelle, frammenti di codice e materiali stampati/manoscritti, utilizzati come contesti delle query per allinearsi strettamente agli scenari del mondo reale. Progettiamo 229 compiti del mondo reale e catene di strumenti eseguibili per valutare gli LLM mainstream. I nostri risultati mostrano che le query degli utenti del mondo reale sono impegnative per gli LLM esistenti, con GPT-4 che completa meno del 50% dei compiti e la maggior parte degli LLM che raggiunge meno del 25%. Questa valutazione rivela i colli di bottiglia nelle capacità di utilizzo degli strumenti degli LLM attuali negli scenari del mondo reale, fornendo una direzione futura per il progresso degli agenti strumentali a scopo generale. Il codice e il dataset sono disponibili all'indirizzo https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs)
with various tools in developing general-purpose agents. This poses a challenge
to LLMs' tool-use capabilities. However, there are evident gaps between
existing tool-use evaluations and real-world scenarios. Current evaluations
often use AI-generated queries, single-step tasks, dummy tools, and text-only
interactions, failing to reveal the agents' real-world problem-solving
abilities effectively. To address this, we propose GTA, a benchmark for General
Tool Agents, featuring three main aspects: (i) Real user queries: human-written
queries with simple real-world objectives but implicit tool-use, requiring the
LLM to reason the suitable tools and plan the solution steps. (ii) Real
deployed tools: an evaluation platform equipped with tools across perception,
operation, logic, and creativity categories to evaluate the agents' actual task
execution performance. (iii) Real multimodal inputs: authentic image files,
such as spatial scenes, web page screenshots, tables, code snippets, and
printed/handwritten materials, used as the query contexts to align with
real-world scenarios closely. We design 229 real-world tasks and executable
tool chains to evaluate mainstream LLMs. Our findings show that real-world user
queries are challenging for existing LLMs, with GPT-4 completing less than 50%
of the tasks and most LLMs achieving below 25%. This evaluation reveals the
bottlenecks in the tool-use capabilities of current LLMs in real-world
scenarios, which provides future direction for advancing general-purpose tool
agents. The code and dataset are available at
https://github.com/open-compass/GTA.