MTU-Bench: un benchmark multi-granularità per modelli linguistici di grandi dimensioni
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models
October 15, 2024
Autori: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Abstract
I Large Language Models (LLM) hanno mostrato enormi miglioramenti nelle capacità di ragionamento e presa di decisioni e possono intrattenere conversazioni naturali con gli utenti. Di recente, sono state proposte molte serie di dati di riferimento sull'uso degli strumenti. Tuttavia, i set di dati esistenti presentano le seguenti limitazioni: (1). Scenari di valutazione insufficienti (ad esempio, coprono solo scene di utilizzo limitato degli strumenti). (2). Elevati costi di valutazione (ad esempio, costi API di GPT). Per affrontare queste limitazioni, in questo lavoro proponiamo un benchmark sull'uso degli strumenti a multi-granularità per i grandi modelli linguistici chiamato MTU-Bench. Per la proprietà di "multi-granularità", il nostro MTU-Bench copre cinque scene di utilizzo degli strumenti (cioè, singola interazione e singolo strumento, singola interazione e strumenti multipli, interazioni multiple e singolo strumento, interazioni multiple e strumenti multipli, e compiti fuori distribuzione). Inoltre, tutte le metriche di valutazione del nostro MTU-Bench si basano sui risultati delle previsioni e sulla verità fondamentale senza utilizzare alcuna metrica di valutazione GPT o umana. Inoltre, il nostro MTU-Bench è stato raccolto trasformando serie di dati esistenti di alta qualità per simulare scenari reali di utilizzo degli strumenti, e proponiamo anche un set di dati di istruzioni chiamato dati MTU-Instruct per potenziare le capacità di utilizzo degli strumenti dei LLM esistenti. I risultati sperimentali esaustivi dimostrano l'efficacia del nostro MTU-Bench. Il codice e i dati saranno rilasciati su https://github.com/MTU-Bench-Team/MTU-Bench.git.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning
and decision-making skills and can hold natural conversations with users.
Recently, many tool-use benchmark datasets have been proposed. However,
existing datasets have the following limitations: (1). Insufficient evaluation
scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation
costs (e.g., GPT API costs). To address these limitations, in this work, we
propose a multi-granularity tool-use benchmark for large language models called
MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool
usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool,
multiple-turn and single-tool, multiple-turn and multiple-tool, and
out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench
are based on the prediction results and the ground truth without using any GPT
or human evaluation metrics. Moreover, our MTU-Bench is collected by
transforming existing high-quality datasets to simulate real-world tool usage
scenarios, and we also propose an instruction dataset called MTU-Instruct data
to enhance the tool-use abilities of existing LLMs. Comprehensive experimental
results demonstrate the effectiveness of our MTU-Bench. Code and data will be
released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.