ComplexFuncBench: Explorando la Llamada de Funciones Multietapa y Restringidas bajo un Escenario de Contexto Largo
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
January 17, 2025
Autores: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI
Resumen
Mejorar los modelos de lenguaje grandes (LLMs) con APIs en tiempo real puede ayudar a generar respuestas más precisas y actualizadas. Sin embargo, la evaluación de las capacidades de llamada a funciones de los LLMs en escenarios del mundo real sigue siendo poco explorada debido a la complejidad de la recopilación y evaluación de datos. En este trabajo, presentamos ComplexFuncBench, un banco de pruebas para la llamada a funciones complejas en cinco escenarios del mundo real. En comparación con los bancos de pruebas existentes, ComplexFuncBench abarca la llamada a funciones con múltiples pasos y restricciones, lo que requiere un llenado de parámetros largo, razonamiento de valores de parámetros y un contexto largo de 128k. Además, proponemos un marco automático, ComplexEval, para evaluar cuantitativamente tareas de llamada a funciones complejas. A través de experimentos exhaustivos, demostramos las deficiencias de los LLMs de última generación en la llamada a funciones y sugerimos futuras direcciones para optimizar estas capacidades. Los datos y el código están disponibles en https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate
more accurate and up-to-date responses. However, evaluating the function
calling abilities of LLMs in real-world scenarios remains under-explored due to
the complexity of data collection and evaluation. In this work, we introduce
ComplexFuncBench, a benchmark for complex function calling across five
real-world scenarios. Compared to existing benchmarks, ComplexFuncBench
encompasses multi-step and constrained function calling, which requires
long-parameter filing, parameter value reasoning, and 128k long context.
Additionally, we propose an automatic framework, ComplexEval, for
quantitatively evaluating complex function calling tasks. Through comprehensive
experiments, we demonstrate the deficiencies of state-of-the-art LLMs in
function calling and suggest future directions for optimizing these
capabilities. The data and code are available at
https://github.com/THUDM/ComplexFuncBench.Summary
AI-Generated Summary