ComplexFuncBench: Explorando la Llamada de Funciones Multietapa y Restringidas bajo un Escenario de Contexto Largo

Resumen

Mejorar los modelos de lenguaje grandes (LLMs) con APIs en tiempo real puede ayudar a generar respuestas más precisas y actualizadas. Sin embargo, la evaluación de las capacidades de llamada a funciones de los LLMs en escenarios del mundo real sigue siendo poco explorada debido a la complejidad de la recopilación y evaluación de datos. En este trabajo, presentamos ComplexFuncBench, un banco de pruebas para la llamada a funciones complejas en cinco escenarios del mundo real. En comparación con los bancos de pruebas existentes, ComplexFuncBench abarca la llamada a funciones con múltiples pasos y restricciones, lo que requiere un llenado de parámetros largo, razonamiento de valores de parámetros y un contexto largo de 128k. Además, proponemos un marco automático, ComplexEval, para evaluar cuantitativamente tareas de llamada a funciones complejas. A través de experimentos exhaustivos, demostramos las deficiencias de los LLMs de última generación en la llamada a funciones y sugerimos futuras direcciones para optimizar estas capacidades. Los datos y el código están disponibles en https://github.com/THUDM/ComplexFuncBench.

English

Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at https://github.com/THUDM/ComplexFuncBench.

ComplexFuncBench: Explorando la Llamada de Funciones Multietapa y Restringidas bajo un Escenario de Contexto Largo

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Resumen

Support