NesTools : un ensemble de données pour évaluer les capacités d'apprentissage d'outils imbriqués des grands modèles de langage
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
October 15, 2024
Auteurs: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI
Résumé
Les grands modèles de langage (LLMs) combinés à l'apprentissage d'outils ont obtenu des résultats impressionnants dans des applications du monde réel. Pendant l'apprentissage des outils, les LLMs peuvent appeler plusieurs outils dans des ordres imbriqués, où l'appel d'outil ultérieur peut prendre la réponse précédente comme ses paramètres d'entrée. Cependant, la recherche actuelle sur les capacités d'apprentissage d'outils imbriqués est encore peu explorée, car les benchmarks existants manquent d'instances de données pertinentes. Pour résoudre ce problème, nous introduisons NesTools pour combler le fossé actuel dans les évaluations complètes de l'apprentissage d'outils imbriqués. NesTools comprend une nouvelle méthode de génération automatique de données pour construire des appels d'outils imbriqués à grande échelle avec différentes structures d'imbrication. Avec une révision et un raffinement manuels, l'ensemble de données est de haute qualité et étroitement aligné sur des scénarios du monde réel. Par conséquent, NesTools peut servir de nouveau benchmark pour évaluer les capacités d'apprentissage d'outils imbriqués des LLMs. Nous menons des expériences approfondies sur 22 LLMs et fournissons des analyses approfondies avec NesTools, qui montrent que les LLMs actuels souffrent encore de la tâche complexe d'apprentissage d'outils imbriqués.
English
Large language models (LLMs) combined with tool learning have gained
impressive results in real-world applications. During tool learning, LLMs may
call multiple tools in nested orders, where the latter tool call may take the
former response as its input parameters. However, current research on the
nested tool learning capabilities is still under-explored, since the existing
benchmarks lack of relevant data instances. To address this problem, we
introduce NesTools to bridge the current gap in comprehensive nested tool
learning evaluations. NesTools comprises a novel automatic data generation
method to construct large-scale nested tool calls with different nesting
structures. With manual review and refinement, the dataset is in high quality
and closely aligned with real-world scenarios. Therefore, NesTools can serve as
a new benchmark to evaluate the nested tool learning abilities of LLMs. We
conduct extensive experiments on 22 LLMs, and provide in-depth analyses with
NesTools, which shows that current LLMs still suffer from the complex nested
tool learning task.Summary
AI-Generated Summary