ChatPaper.aiChatPaper

NesTools: 大規模言語モデルのネストされたツール学習能力を評価するためのデータセット

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

October 15, 2024
著者: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI

要旨

大規模言語モデル(LLMs)はツール学習と組み合わせることで、実世界の応用において印象的な結果を得ています。ツール学習中、LLMsは入れ子になった順序で複数のツールを呼び出すことがあり、後続のツール呼び出しでは前者の応答を入力パラメータとして利用することがあります。しかしながら、現在の研究では、入れ子のツール学習能力に関する調査がまだ不十分であり、既存のベンチマークには関連するデータインスタンスが不足しています。この問題に対処するために、我々は現在の包括的な入れ子ツール学習評価のギャップを埋めるために、NesToolsを導入します。NesToolsには、異なる入れ子構造を持つ大規模な入れ子ツール呼び出しを構築するための革新的な自動データ生成方法が含まれています。手動でのレビューと改良を経て、データセットは高品質であり、実世界のシナリオに密接に沿っています。そのため、NesToolsはLLMsの入れ子ツール学習能力を評価する新しいベンチマークとして機能することができます。我々は22のLLMsで広範な実験を行い、NesToolsを用いた詳細な分析を提供し、現在のLLMsは依然として複雑な入れ子ツール学習タスクに苦しんでいることを示しています。
English
Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.

Summary

AI-Generated Summary

PDF144November 16, 2024