GTA : Un Benchmark pour les Agents Outils Généraux

papers.abstract

Une attention significative a été portée sur l'intégration des grands modèles de langage (LLMs) avec divers outils dans le développement d'agents à usage général. Cela représente un défi pour les capacités d'utilisation d'outils des LLMs. Cependant, il existe des écarts évidents entre les évaluations existantes de l'utilisation d'outils et les scénarios réels. Les évaluations actuelles utilisent souvent des requêtes générées par l'IA, des tâches en une seule étape, des outils factices et des interactions uniquement textuelles, ne révélant pas efficacement les capacités de résolution de problèmes des agents dans le monde réel. Pour remédier à cela, nous proposons GTA, un benchmark pour les Agents d'Outils Généraux, comportant trois aspects principaux : (i) Requêtes d'utilisateurs réels : des requêtes rédigées par des humains avec des objectifs simples du monde réel mais une utilisation implicite d'outils, nécessitant que le LLM raisonne sur les outils appropriés et planifie les étapes de la solution. (ii) Outils déployés réels : une plateforme d'évaluation équipée d'outils couvrant les catégories de perception, d'opération, de logique et de créativité pour évaluer la performance réelle des agents dans l'exécution des tâches. (iii) Entrées multimodales réelles : des fichiers image authentiques, tels que des scènes spatiales, des captures d'écran de pages web, des tableaux, des extraits de code et des documents imprimés/manuscrits, utilisés comme contextes de requête pour s'aligner étroitement sur les scénarios réels. Nous concevons 229 tâches du monde réel et des chaînes d'outils exécutables pour évaluer les LLMs dominants. Nos résultats montrent que les requêtes d'utilisateurs réels sont difficiles pour les LLMs existants, avec GPT-4 complétant moins de 50 % des tâches et la plupart des LLMs atteignant moins de 25 %. Cette évaluation révèle les goulots d'étranglement dans les capacités d'utilisation d'outils des LLMs actuels dans des scénarios réels, ce qui fournit une orientation future pour l'avancement des agents d'outils à usage général. Le code et le jeu de données sont disponibles à l'adresse https://github.com/open-compass/GTA.

English

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.

GTA : Un Benchmark pour les Agents Outils Généraux

GTA: A Benchmark for General Tool Agents

papers.abstract

Support