ChatPaper.aiChatPaper

ComplexFuncBench: Esplorazione della Chiamata di Funzioni Multi-step e Vincolate in uno Scenario a Lungo Contesto

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

January 17, 2025
Autori: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI

Abstract

Potenziare i grandi modelli linguistici (LLM) con API in tempo reale può aiutare a generare risposte più accurate e aggiornate. Tuttavia, valutare le capacità di chiamata di funzione dei LLM in scenari reali rimane poco esplorato a causa della complessità della raccolta e valutazione dei dati. In questo lavoro, presentiamo ComplexFuncBench, un benchmark per la chiamata di funzioni complesse in cinque scenari reali. Rispetto ai benchmark esistenti, ComplexFuncBench include la chiamata di funzioni multi-step e vincolate, che richiede il completamento di parametri lunghi, la ragionamento sui valori dei parametri e un contesto lungo 128k. Inoltre, proponiamo un framework automatico, ComplexEval, per valutare quantitativamente compiti di chiamata di funzioni complesse. Attraverso esperimenti esaustivi, dimostriamo le carenze dei LLM all'avanguardia nella chiamata di funzioni e suggeriamo direzioni future per ottimizzare queste capacità. I dati e il codice sono disponibili su https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at https://github.com/THUDM/ComplexFuncBench.

Summary

AI-Generated Summary

PDF202January 20, 2025