ChatPaper.aiChatPaper

ComplexFuncBench : Exploration des appels de fonctions multi-étapes et contraints dans un scénario à long contexte

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

January 17, 2025
Auteurs: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI

Résumé

L'amélioration des grands modèles de langage (LLMs) avec des API en temps réel peut aider à générer des réponses plus précises et actualisées. Cependant, l'évaluation des capacités d'appel de fonction des LLMs dans des scénarios du monde réel reste peu explorée en raison de la complexité de la collecte et de l'évaluation des données. Dans ce travail, nous introduisons ComplexFuncBench, un banc d'essai pour l'appel de fonctions complexes à travers cinq scénarios du monde réel. Comparé aux bancs d'essai existants, ComplexFuncBench englobe des appels de fonctions multi-étapes et contraints, nécessitant un remplissage de longs paramètres, un raisonnement sur les valeurs des paramètres et un contexte long de 128k. De plus, nous proposons un cadre automatique, ComplexEval, pour évaluer quantitativement les tâches d'appel de fonctions complexes. À travers des expériences approfondies, nous démontrons les lacunes des LLMs de pointe dans l'appel de fonctions et suggérons des orientations futures pour optimiser ces capacités. Les données et le code sont disponibles sur https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at https://github.com/THUDM/ComplexFuncBench.

Summary

AI-Generated Summary

PDF202January 20, 2025