ChatPaper.aiChatPaper

MTU-Bench : un banc d'essai multi-granularité pour les grands modèles de langage

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

October 15, 2024
Auteurs: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont affiché d'énormes améliorations en matière de raisonnement et de prise de décision, et peuvent tenir des conversations naturelles avec les utilisateurs. Récemment, de nombreux ensembles de données de référence pour l'utilisation d'outils ont été proposés. Cependant, les ensembles de données existants présentent les limitations suivantes : (1). Scénarios d'évaluation insuffisants (par exemple, ne couvrent que des scènes d'utilisation d'outils limitées). (2). Coûts d'évaluation étendus (par exemple, coûts de l'API GPT). Pour remédier à ces limitations, dans ce travail, nous proposons un ensemble de données de référence pour l'utilisation d'outils à multi-granularité pour les grands modèles de langage appelé MTU-Bench. Pour la propriété de "multi-granularité", notre MTU-Bench couvre cinq scènes d'utilisation d'outils (c'est-à-dire, un tour et un outil, un tour et plusieurs outils, plusieurs tours et un outil, plusieurs tours et plusieurs outils, et des tâches hors distribution). De plus, toutes les mesures d'évaluation de notre MTU-Bench sont basées sur les résultats de prédiction et la vérité terrain sans utiliser de métriques d'évaluation GPT ou humaines. De plus, notre MTU-Bench est collecté en transformant des ensembles de données de haute qualité existants pour simuler des scénarios d'utilisation d'outils du monde réel, et nous proposons également un ensemble de données d'instructions appelé données MTU-Instruct pour améliorer les capacités d'utilisation d'outils des LLMs existants. Des résultats expérimentaux complets démontrent l'efficacité de notre MTU-Bench. Le code et les données seront publiés sur https://github.com/MTU-Bench-Team/MTU-Bench.git.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Recently, many tool-use benchmark datasets have been proposed. However, existing datasets have the following limitations: (1). Insufficient evaluation scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation costs (e.g., GPT API costs). To address these limitations, in this work, we propose a multi-granularity tool-use benchmark for large language models called MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool, multiple-turn and single-tool, multiple-turn and multiple-tool, and out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench are based on the prediction results and the ground truth without using any GPT or human evaluation metrics. Moreover, our MTU-Bench is collected by transforming existing high-quality datasets to simulate real-world tool usage scenarios, and we also propose an instruction dataset called MTU-Instruct data to enhance the tool-use abilities of existing LLMs. Comprehensive experimental results demonstrate the effectiveness of our MTU-Bench. Code and data will be released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.

Summary

AI-Generated Summary

PDF202November 16, 2024