ComplexFuncBench: Explorando Chamadas de Função Multi-Step e Constrained em Cenários de Longo Contexto

Resumo

Aprimorar modelos de linguagem grandes (LLMs) com APIs em tempo real pode ajudar a gerar respostas mais precisas e atualizadas. No entanto, a avaliação das capacidades de chamada de função dos LLMs em cenários do mundo real ainda é pouco explorada devido à complexidade da coleta e avaliação de dados. Neste trabalho, apresentamos o ComplexFuncBench, um benchmark para chamadas de função complexas em cinco cenários do mundo real. Comparado aos benchmarks existentes, o ComplexFuncBench abrange chamadas de função multi-etapas e restritas, que exigem preenchimento de parâmetros longos, raciocínio de valores de parâmetros e contexto longo de 128k. Além disso, propomos um framework automático, ComplexEval, para avaliar quantitativamente tarefas de chamada de função complexas. Através de experimentos abrangentes, demonstramos as deficiências dos LLMs de ponta em chamadas de função e sugerimos direções futuras para otimizar essas capacidades. Os dados e o código estão disponíveis em https://github.com/THUDM/ComplexFuncBench.

English

Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at https://github.com/THUDM/ComplexFuncBench.

ComplexFuncBench: Explorando Chamadas de Função Multi-Step e Constrained em Cenários de Longo Contexto

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Resumo

Support