ComplexFuncBench: Исследование многошагового и ограниченного вызова функций в условиях длинного контекста
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
January 17, 2025
Авторы: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang
cs.AI
Аннотация
Улучшение больших языковых моделей (LLM) с помощью API в реальном времени может помочь генерировать более точные и актуальные ответы. Однако оценка возможностей вызова функций LLM в реальных сценариях остается мало исследованной из-за сложности сбора данных и оценки. В данной работе мы представляем ComplexFuncBench, набор тестов для сложного вызова функций в пяти реальных сценариях. По сравнению с существующими тестами, ComplexFuncBench охватывает многоэтапный и ограниченный вызов функций, который требует заполнения длинных параметров, рассуждения о значении параметров и контекста длиной 128 тыс. символов. Кроме того, мы предлагаем автоматизированную платформу, ComplexEval, для количественной оценки сложных задач вызова функций. Через комплексные эксперименты мы демонстрируем недостатки современных LLM в вызове функций и предлагаем направления для оптимизации этих возможностей. Данные и код доступны по ссылке https://github.com/THUDM/ComplexFuncBench.
English
Enhancing large language models (LLMs) with real-time APIs can help generate
more accurate and up-to-date responses. However, evaluating the function
calling abilities of LLMs in real-world scenarios remains under-explored due to
the complexity of data collection and evaluation. In this work, we introduce
ComplexFuncBench, a benchmark for complex function calling across five
real-world scenarios. Compared to existing benchmarks, ComplexFuncBench
encompasses multi-step and constrained function calling, which requires
long-parameter filing, parameter value reasoning, and 128k long context.
Additionally, we propose an automatic framework, ComplexEval, for
quantitatively evaluating complex function calling tasks. Through comprehensive
experiments, we demonstrate the deficiencies of state-of-the-art LLMs in
function calling and suggest future directions for optimizing these
capabilities. The data and code are available at
https://github.com/THUDM/ComplexFuncBench.Summary
AI-Generated Summary