NesTools: Набор данных для оценки способностей к обучению вложенных инструментов крупных языковых моделей
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
October 15, 2024
Авторы: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI
Аннотация
Большие языковые модели (LLM), совмещенные с обучением инструментов, показали впечатляющие результаты в реальных приложениях. Во время обучения инструментам LLM могут вызывать несколько инструментов во вложенном порядке, где вызов последнего инструмента может использовать ответ предыдущего в качестве входных параметров. Однако текущие исследования возможностей вложенного обучения инструментам все еще недостаточно исследованы, поскольку существующим бенчмаркам не хватает соответствующих данных. Для решения этой проблемы мы представляем NesTools для заполнения текущего пробела в комплексной оценке вложенного обучения инструментам. NesTools включает в себя новый метод автоматического создания данных для построения масштабных вложенных вызовов инструментов с различными структурами вложенности. После ручного просмотра и усовершенствования набор данных имеет высокое качество и тесно соответствует реальным сценариям. Следовательно, NesTools может служить новым бенчмарком для оценки возможностей вложенного обучения инструментам LLM. Мы проводим обширные эксперименты на 22 LLM и предоставляем глубокий анализ с использованием NesTools, который показывает, что текущие LLM все еще испытывают сложности с задачей вложенного обучения инструментам.
English
Large language models (LLMs) combined with tool learning have gained
impressive results in real-world applications. During tool learning, LLMs may
call multiple tools in nested orders, where the latter tool call may take the
former response as its input parameters. However, current research on the
nested tool learning capabilities is still under-explored, since the existing
benchmarks lack of relevant data instances. To address this problem, we
introduce NesTools to bridge the current gap in comprehensive nested tool
learning evaluations. NesTools comprises a novel automatic data generation
method to construct large-scale nested tool calls with different nesting
structures. With manual review and refinement, the dataset is in high quality
and closely aligned with real-world scenarios. Therefore, NesTools can serve as
a new benchmark to evaluate the nested tool learning abilities of LLMs. We
conduct extensive experiments on 22 LLMs, and provide in-depth analyses with
NesTools, which shows that current LLMs still suffer from the complex nested
tool learning task.Summary
AI-Generated Summary