MTU-Bench: Многоуровневый бенчмарк инструментов для крупных языковых моделей
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models
October 15, 2024
Авторы: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали значительные улучшения в навыках рассуждения и принятия решений, а также способны вести естественные разговоры с пользователями. Недавно было предложено множество наборов данных для оценки использования инструментов. Однако существующие наборы данных имеют следующие ограничения: (1) Недостаточное количество сценариев оценки (например, охватывают только ограниченное количество сценариев использования инструментов). (2) Высокие затраты на оценку (например, затраты на использование API GPT). Для решения этих ограничений в данной работе мы предлагаем многоуровневый набор данных для оценки использования инструментов для больших языковых моделей под названием MTU-Bench. Для свойства "многоуровневости" наш MTU-Bench охватывает пять сценариев использования инструментов (т.е. однократный поворот и один инструмент, однократный поворот и несколько инструментов, многократный поворот и один инструмент, многократный поворот и несколько инструментов, а также задачи вне распределения). Кроме того, все метрики оценки нашего MTU-Bench основаны на результатах прогнозирования и истинных данных без использования каких-либо метрик оценки GPT или человеческой оценки. Более того, наш MTU-Bench собран путем преобразования существующих наборов данных высокого качества для имитации сценариев использования инструментов в реальном мире, и мы также предлагаем набор данных с инструкциями под названием MTU-Instruct для улучшения навыков использования инструментов существующих LLM. Обширные экспериментальные результаты демонстрируют эффективность нашего MTU-Bench. Код и данные будут опубликованы на https://github.com/MTU-Bench-Team/MTU-Bench.git.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning
and decision-making skills and can hold natural conversations with users.
Recently, many tool-use benchmark datasets have been proposed. However,
existing datasets have the following limitations: (1). Insufficient evaluation
scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation
costs (e.g., GPT API costs). To address these limitations, in this work, we
propose a multi-granularity tool-use benchmark for large language models called
MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool
usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool,
multiple-turn and single-tool, multiple-turn and multiple-tool, and
out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench
are based on the prediction results and the ground truth without using any GPT
or human evaluation metrics. Moreover, our MTU-Bench is collected by
transforming existing high-quality datasets to simulate real-world tool usage
scenarios, and we also propose an instruction dataset called MTU-Instruct data
to enhance the tool-use abilities of existing LLMs. Comprehensive experimental
results demonstrate the effectiveness of our MTU-Bench. Code and data will be
released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.Summary
AI-Generated Summary