MTU-Bench: Un banco de pruebas de uso de herramientas de múltiples granularidades para modelos de lenguaje grandes
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models
October 15, 2024
Autores: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) han mostrado mejoras masivas en habilidades de razonamiento y toma de decisiones, y pueden sostener conversaciones naturales con los usuarios. Recientemente, se han propuesto muchos conjuntos de datos de referencia para el uso de herramientas. Sin embargo, los conjuntos de datos existentes presentan las siguientes limitaciones: (1). Escenarios de evaluación insuficientes (por ejemplo, solo cubren escenas de uso de herramientas limitadas). (2). Costos extensos de evaluación (por ejemplo, costos de API de GPT). Para abordar estas limitaciones, en este trabajo proponemos un conjunto de datos de referencia para el uso de herramientas de granularidad múltiple para grandes modelos de lenguaje llamado MTU-Bench. Para la propiedad de "granularidad múltiple", nuestro MTU-Bench cubre cinco escenas de uso de herramientas (es decir, turno único y herramienta única, turno único y múltiples herramientas, múltiples turnos y herramienta única, múltiples turnos y múltiples herramientas, y tareas fuera de distribución). Además, todas las métricas de evaluación de nuestro MTU-Bench se basan en los resultados de predicción y la verdad fundamental sin utilizar ninguna métrica de evaluación de GPT o humana. Además, nuestro MTU-Bench se recopila transformando conjuntos de datos existentes de alta calidad para simular escenarios de uso de herramientas del mundo real, y también proponemos un conjunto de datos de instrucciones llamado datos de instrucción MTU-Instruct para mejorar las habilidades de uso de herramientas de los LLMs existentes. Los resultados experimentales exhaustivos demuestran la efectividad de nuestro MTU-Bench. El código y los datos se publicarán en https://github.com/MTU-Bench-Team/MTU-Bench.git.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning
and decision-making skills and can hold natural conversations with users.
Recently, many tool-use benchmark datasets have been proposed. However,
existing datasets have the following limitations: (1). Insufficient evaluation
scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation
costs (e.g., GPT API costs). To address these limitations, in this work, we
propose a multi-granularity tool-use benchmark for large language models called
MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool
usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool,
multiple-turn and single-tool, multiple-turn and multiple-tool, and
out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench
are based on the prediction results and the ground truth without using any GPT
or human evaluation metrics. Moreover, our MTU-Bench is collected by
transforming existing high-quality datasets to simulate real-world tool usage
scenarios, and we also propose an instruction dataset called MTU-Instruct data
to enhance the tool-use abilities of existing LLMs. Comprehensive experimental
results demonstrate the effectiveness of our MTU-Bench. Code and data will be
released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.Summary
AI-Generated Summary