ComplexFuncBench: Explorando Chamadas de Função Multi-Step e Constrained em Cenários de Longo Contexto
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
January 17, 2025
Autores: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI
Resumo
Aprimorar modelos de linguagem grandes (LLMs) com APIs em tempo real pode ajudar a gerar respostas mais precisas e atualizadas. No entanto, a avaliação das capacidades de chamada de função dos LLMs em cenários do mundo real ainda é pouco explorada devido à complexidade da coleta e avaliação de dados. Neste trabalho, apresentamos o ComplexFuncBench, um benchmark para chamadas de função complexas em cinco cenários do mundo real. Comparado aos benchmarks existentes, o ComplexFuncBench abrange chamadas de função multi-etapas e restritas, que exigem preenchimento de parâmetros longos, raciocínio de valores de parâmetros e contexto longo de 128k. Além disso, propomos um framework automático, ComplexEval, para avaliar quantitativamente tarefas de chamada de função complexas. Através de experimentos abrangentes, demonstramos as deficiências dos LLMs de ponta em chamadas de função e sugerimos direções futuras para otimizar essas capacidades. Os dados e o código estão disponíveis em https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate
more accurate and up-to-date responses. However, evaluating the function
calling abilities of LLMs in real-world scenarios remains under-explored due to
the complexity of data collection and evaluation. In this work, we introduce
ComplexFuncBench, a benchmark for complex function calling across five
real-world scenarios. Compared to existing benchmarks, ComplexFuncBench
encompasses multi-step and constrained function calling, which requires
long-parameter filing, parameter value reasoning, and 128k long context.
Additionally, we propose an automatic framework, ComplexEval, for
quantitatively evaluating complex function calling tasks. Through comprehensive
experiments, we demonstrate the deficiencies of state-of-the-art LLMs in
function calling and suggest future directions for optimizing these
capabilities. The data and code are available at
https://github.com/THUDM/ComplexFuncBench.Summary
AI-Generated Summary