ChatPaper.aiChatPaper

NesTools : un ensemble de données pour évaluer les capacités d'apprentissage d'outils imbriqués des grands modèles de langage

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

October 15, 2024
Auteurs: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI

Résumé

Les grands modèles de langage (LLMs) combinés à l'apprentissage d'outils ont obtenu des résultats impressionnants dans des applications du monde réel. Pendant l'apprentissage des outils, les LLMs peuvent appeler plusieurs outils dans des ordres imbriqués, où l'appel d'outil ultérieur peut prendre la réponse précédente comme ses paramètres d'entrée. Cependant, la recherche actuelle sur les capacités d'apprentissage d'outils imbriqués est encore peu explorée, car les benchmarks existants manquent d'instances de données pertinentes. Pour résoudre ce problème, nous introduisons NesTools pour combler le fossé actuel dans les évaluations complètes de l'apprentissage d'outils imbriqués. NesTools comprend une nouvelle méthode de génération automatique de données pour construire des appels d'outils imbriqués à grande échelle avec différentes structures d'imbrication. Avec une révision et un raffinement manuels, l'ensemble de données est de haute qualité et étroitement aligné sur des scénarios du monde réel. Par conséquent, NesTools peut servir de nouveau benchmark pour évaluer les capacités d'apprentissage d'outils imbriqués des LLMs. Nous menons des expériences approfondies sur 22 LLMs et fournissons des analyses approfondies avec NesTools, qui montrent que les LLMs actuels souffrent encore de la tâche complexe d'apprentissage d'outils imbriqués.
English
Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.

Summary

AI-Generated Summary

PDF144November 16, 2024