NesTools: un insieme di dati per valutare le capacità di apprendimento di strumenti nidificati dei grandi modelli linguistici

Abstract

I grandi modelli linguistici (LLM) combinati con l'apprendimento degli strumenti hanno ottenuto risultati impressionanti nelle applicazioni del mondo reale. Durante l'apprendimento degli strumenti, i LLM possono richiamare più strumenti in ordini nidificati, dove il richiamo dello strumento successivo può prendere la risposta precedente come parametri di input. Tuttavia, la ricerca attuale sulle capacità di apprendimento degli strumenti nidificati è ancora poco esplorata, poiché i benchmark esistenti mancano di istanze di dati rilevanti. Per affrontare questo problema, presentiamo NesTools per colmare il divario attuale nelle valutazioni complete dell'apprendimento degli strumenti nidificati. NesTools comprende un nuovo metodo automatico di generazione dei dati per costruire richiami di strumenti nidificati su larga scala con diverse strutture nidificate. Con una revisione e un perfezionamento manuali, il dataset è di alta qualità e strettamente allineato con scenari del mondo reale. Pertanto, NesTools può fungere da nuovo benchmark per valutare le capacità di apprendimento degli strumenti nidificati dei LLM. Conduciamo ampi esperimenti su 22 LLM e forniamo analisi approfondite con NesTools, che mostra che i LLM attuali soffrono ancora del complesso compito di apprendimento degli strumenti nidificati.

English

Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.

NesTools: un insieme di dati per valutare le capacità di apprendimento di strumenti nidificati dei grandi modelli linguistici

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

Abstract

Summary

Support

Support