ChatPaper.aiChatPaper

MTU-Bench: Um Benchmark de Uso de Ferramentas de Múltiplas Granularidades para Modelos de Linguagem Grandes

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

October 15, 2024
Autores: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado melhorias massivas em habilidades de raciocínio e tomada de decisão e podem manter conversas naturais com os usuários. Recentemente, muitos conjuntos de dados de referência de uso de ferramentas foram propostos. No entanto, os conjuntos de dados existentes têm as seguintes limitações: (1) Cenários de avaliação insuficientes (por exemplo, cobrem apenas cenas de uso de ferramentas limitadas). (2) Custos extensivos de avaliação (por exemplo, custos da API GPT). Para lidar com essas limitações, neste trabalho, propomos um conjunto de dados de referência de uso de ferramentas em várias granularidades para grandes modelos de linguagem chamado MTU-Bench. Para a propriedade de "multi-granularidade", nosso MTU-Bench abrange cinco cenas de uso de ferramentas (ou seja, turno único e única ferramenta, turno único e múltiplas ferramentas, múltiplos turnos e única ferramenta, múltiplos turnos e múltiplas ferramentas, e tarefas fora da distribuição). Além disso, todas as métricas de avaliação do nosso MTU-Bench são baseadas nos resultados de previsão e na verdade fundamental sem usar quaisquer métricas de avaliação GPT ou humanas. Além disso, nosso MTU-Bench é coletado transformando conjuntos de dados existentes de alta qualidade para simular cenários de uso de ferramentas do mundo real, e também propomos um conjunto de dados de instruções chamado dados MTU-Instruct para aprimorar as habilidades de uso de ferramentas dos LLMs existentes. Resultados experimentais abrangentes demonstram a eficácia do nosso MTU-Bench. O código e os dados serão disponibilizados em https://github.com/MTU-Bench-Team/MTU-Bench.git.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Recently, many tool-use benchmark datasets have been proposed. However, existing datasets have the following limitations: (1). Insufficient evaluation scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation costs (e.g., GPT API costs). To address these limitations, in this work, we propose a multi-granularity tool-use benchmark for large language models called MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool, multiple-turn and single-tool, multiple-turn and multiple-tool, and out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench are based on the prediction results and the ground truth without using any GPT or human evaluation metrics. Moreover, our MTU-Bench is collected by transforming existing high-quality datasets to simulate real-world tool usage scenarios, and we also propose an instruction dataset called MTU-Instruct data to enhance the tool-use abilities of existing LLMs. Comprehensive experimental results demonstrate the effectiveness of our MTU-Bench. Code and data will be released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.

Summary

AI-Generated Summary

PDF202November 16, 2024