ComplexFuncBench: Esplorazione della Chiamata di Funzioni Multi-step e Vincolate in uno Scenario a Lungo Contesto
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
January 17, 2025
Autori: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI
Abstract
Potenziare i grandi modelli linguistici (LLM) con API in tempo reale può aiutare a generare risposte più accurate e aggiornate. Tuttavia, valutare le capacità di chiamata di funzione dei LLM in scenari reali rimane poco esplorato a causa della complessità della raccolta e valutazione dei dati. In questo lavoro, presentiamo ComplexFuncBench, un benchmark per la chiamata di funzioni complesse in cinque scenari reali. Rispetto ai benchmark esistenti, ComplexFuncBench include la chiamata di funzioni multi-step e vincolate, che richiede il completamento di parametri lunghi, la ragionamento sui valori dei parametri e un contesto lungo 128k. Inoltre, proponiamo un framework automatico, ComplexEval, per valutare quantitativamente compiti di chiamata di funzioni complesse. Attraverso esperimenti esaustivi, dimostriamo le carenze dei LLM all'avanguardia nella chiamata di funzioni e suggeriamo direzioni future per ottimizzare queste capacità. I dati e il codice sono disponibili su https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate
more accurate and up-to-date responses. However, evaluating the function
calling abilities of LLMs in real-world scenarios remains under-explored due to
the complexity of data collection and evaluation. In this work, we introduce
ComplexFuncBench, a benchmark for complex function calling across five
real-world scenarios. Compared to existing benchmarks, ComplexFuncBench
encompasses multi-step and constrained function calling, which requires
long-parameter filing, parameter value reasoning, and 128k long context.
Additionally, we propose an automatic framework, ComplexEval, for
quantitatively evaluating complex function calling tasks. Through comprehensive
experiments, we demonstrate the deficiencies of state-of-the-art LLMs in
function calling and suggest future directions for optimizing these
capabilities. The data and code are available at
https://github.com/THUDM/ComplexFuncBench.Summary
AI-Generated Summary