ChatPaper.aiChatPaper

NesTools: Um Conjunto de Dados para Avaliar as Habilidades de Aprendizado de Ferramentas Aninhadas de Modelos de Linguagem de Grande Escala

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

October 15, 2024
Autores: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI

Resumo

Grandes modelos de linguagem (LLMs) combinados com aprendizado de ferramentas têm obtido resultados impressionantes em aplicações do mundo real. Durante o aprendizado de ferramentas, os LLMs podem chamar várias ferramentas em ordens aninhadas, onde a chamada da ferramenta posterior pode receber a resposta da anterior como seus parâmetros de entrada. No entanto, a pesquisa atual sobre as capacidades de aprendizado de ferramentas aninhadas ainda é pouco explorada, uma vez que os benchmarks existentes carecem de instâncias de dados relevantes. Para abordar esse problema, apresentamos o NesTools para preencher a lacuna atual em avaliações abrangentes de aprendizado de ferramentas aninhadas. O NesTools compreende um novo método de geração automática de dados para construir chamadas de ferramentas aninhadas em larga escala com diferentes estruturas de aninhamento. Com revisão e refinamento manuais, o conjunto de dados é de alta qualidade e está intimamente alinhado com cenários do mundo real. Portanto, o NesTools pode servir como um novo benchmark para avaliar as habilidades de aprendizado de ferramentas aninhadas dos LLMs. Realizamos experimentos extensivos em 22 LLMs e fornecemos análises detalhadas com o NesTools, que mostram que os LLMs atuais ainda enfrentam dificuldades na tarefa complexa de aprendizado de ferramentas aninhadas.
English
Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.

Summary

AI-Generated Summary

PDF144November 16, 2024