ChatPaper.aiChatPaper

MTU-Bench: Ein Benchmark für die Mehrgranularität von Werkzeugnutzung für große Sprachmodelle

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

October 15, 2024
Autoren: Pei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben massive Verbesserungen in den Bereichen Argumentation und Entscheidungsfindung gezeigt und können natürliche Gespräche mit Benutzern führen. In letzter Zeit wurden viele Benchmark-Datensätze für die Werkzeugnutzung vorgeschlagen. Allerdings weisen bestehende Datensätze folgende Einschränkungen auf: (1). Unzureichende Bewertungsszenarien (z. B. decken nur begrenzte Werkzeugnutzungsszenen ab). (2). Hohe Evaluationskosten (z. B. GPT-API-Kosten). Um diesen Einschränkungen zu begegnen, schlagen wir in dieser Arbeit einen Multi-Granularitäts-Werkzeugnutzungsbenchmark für große Sprachmodelle namens MTU-Bench vor. Für die Eigenschaft der "Multi-Granularität" deckt unser MTU-Bench fünf Werkzeugnutzungsszenen ab (d. h. Einzelzugang und Einzelwerkzeug, Einzelzugang und mehrere Werkzeuge, mehrere Zugänge und Einzelwerkzeug, mehrere Zugänge und mehrere Werkzeuge sowie Aufgaben außerhalb der Verteilung). Darüber hinaus basieren alle Bewertungsmetriken unseres MTU-Bench auf den Vorhersageergebnissen und der Ground Truth, ohne dabei auf GPT oder menschliche Bewertungsmetriken zurückzugreifen. Außerdem wird unser MTU-Bench durch die Umwandlung bestehender hochwertiger Datensätze gesammelt, um reale Werkzeugnutzungsszenarien zu simulieren, und wir schlagen auch einen Anweisungsdatensatz namens MTU-Instruct Data vor, um die Werkzeugnutzungsfähigkeiten bestehender LLMs zu verbessern. Umfassende experimentelle Ergebnisse zeigen die Wirksamkeit unseres MTU-Bench. Code und Daten werden unter https://github.com/MTU-Bench-Team/MTU-Bench.git veröffentlicht.
English
Large Language Models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Recently, many tool-use benchmark datasets have been proposed. However, existing datasets have the following limitations: (1). Insufficient evaluation scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation costs (e.g., GPT API costs). To address these limitations, in this work, we propose a multi-granularity tool-use benchmark for large language models called MTU-Bench. For the "multi-granularity" property, our MTU-Bench covers five tool usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool, multiple-turn and single-tool, multiple-turn and multiple-tool, and out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench are based on the prediction results and the ground truth without using any GPT or human evaluation metrics. Moreover, our MTU-Bench is collected by transforming existing high-quality datasets to simulate real-world tool usage scenarios, and we also propose an instruction dataset called MTU-Instruct data to enhance the tool-use abilities of existing LLMs. Comprehensive experimental results demonstrate the effectiveness of our MTU-Bench. Code and data will be released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.

Summary

AI-Generated Summary

PDF202November 16, 2024