GTA : Un Benchmark pour les Agents Outils Généraux
GTA: A Benchmark for General Tool Agents
July 11, 2024
Auteurs: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI
Résumé
Une attention significative a été portée sur l'intégration des grands modèles de langage (LLMs) avec divers outils dans le développement d'agents à usage général. Cela représente un défi pour les capacités d'utilisation d'outils des LLMs. Cependant, il existe des écarts évidents entre les évaluations existantes de l'utilisation d'outils et les scénarios réels. Les évaluations actuelles utilisent souvent des requêtes générées par l'IA, des tâches en une seule étape, des outils factices et des interactions uniquement textuelles, ne révélant pas efficacement les capacités de résolution de problèmes des agents dans le monde réel. Pour remédier à cela, nous proposons GTA, un benchmark pour les Agents d'Outils Généraux, comportant trois aspects principaux : (i) Requêtes d'utilisateurs réels : des requêtes rédigées par des humains avec des objectifs simples du monde réel mais une utilisation implicite d'outils, nécessitant que le LLM raisonne sur les outils appropriés et planifie les étapes de la solution. (ii) Outils déployés réels : une plateforme d'évaluation équipée d'outils couvrant les catégories de perception, d'opération, de logique et de créativité pour évaluer la performance réelle des agents dans l'exécution des tâches. (iii) Entrées multimodales réelles : des fichiers image authentiques, tels que des scènes spatiales, des captures d'écran de pages web, des tableaux, des extraits de code et des documents imprimés/manuscrits, utilisés comme contextes de requête pour s'aligner étroitement sur les scénarios réels. Nous concevons 229 tâches du monde réel et des chaînes d'outils exécutables pour évaluer les LLMs dominants. Nos résultats montrent que les requêtes d'utilisateurs réels sont difficiles pour les LLMs existants, avec GPT-4 complétant moins de 50 % des tâches et la plupart des LLMs atteignant moins de 25 %. Cette évaluation révèle les goulots d'étranglement dans les capacités d'utilisation d'outils des LLMs actuels dans des scénarios réels, ce qui fournit une orientation future pour l'avancement des agents d'outils à usage général. Le code et le jeu de données sont disponibles à l'adresse https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs)
with various tools in developing general-purpose agents. This poses a challenge
to LLMs' tool-use capabilities. However, there are evident gaps between
existing tool-use evaluations and real-world scenarios. Current evaluations
often use AI-generated queries, single-step tasks, dummy tools, and text-only
interactions, failing to reveal the agents' real-world problem-solving
abilities effectively. To address this, we propose GTA, a benchmark for General
Tool Agents, featuring three main aspects: (i) Real user queries: human-written
queries with simple real-world objectives but implicit tool-use, requiring the
LLM to reason the suitable tools and plan the solution steps. (ii) Real
deployed tools: an evaluation platform equipped with tools across perception,
operation, logic, and creativity categories to evaluate the agents' actual task
execution performance. (iii) Real multimodal inputs: authentic image files,
such as spatial scenes, web page screenshots, tables, code snippets, and
printed/handwritten materials, used as the query contexts to align with
real-world scenarios closely. We design 229 real-world tasks and executable
tool chains to evaluate mainstream LLMs. Our findings show that real-world user
queries are challenging for existing LLMs, with GPT-4 completing less than 50%
of the tasks and most LLMs achieving below 25%. This evaluation reveals the
bottlenecks in the tool-use capabilities of current LLMs in real-world
scenarios, which provides future direction for advancing general-purpose tool
agents. The code and dataset are available at
https://github.com/open-compass/GTA.Summary
AI-Generated Summary