FinMCP-Bench: Evaluación de Agentes LLM para el Uso de Herramientas Financieras del Mundo Real bajo el Protocolo de Contexto del Modelo
FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
March 26, 2026
Autores: Jie Zhu, Yimin Tian, Boyang Li, Kehao Wu, Zhongzhi Liang, Junhui Li, Xianyin Zhang, Lifan Guo, Feng Chen, Yong Liu, Chi Zhang
cs.AI
Resumen
Este artículo presenta FinMCP-Bench, un nuevo benchmark para evaluar modelos de lenguaje grandes (LLM) en la resolución de problemas financieros del mundo real mediante la invocación de herramientas de protocolos de contexto de modelos financieros. FinMCP-Bench contiene 613 muestras que abarcan 10 escenarios principales y 33 subescenarios, e incluye consultas de usuarios tanto reales como sintéticas para garantizar diversidad y autenticidad. Incorpora 65 MCP financieros reales y tres tipos de muestras (herramienta únicas, múltiples herramientas y múltiples turnos), lo que permite evaluar los modelos en diferentes niveles de complejidad de tareas. Utilizando este benchmark, evaluamos sistemáticamente una gama de LLM principales y proponemos métricas que miden explícitamente la precisión en la invocación de herramientas y las capacidades de razonamiento. FinMCP-Bench proporciona un banco de pruebas estandarizado, práctico y desafiante para avanzar en la investigación sobre agentes LLM financieros.
English
This paper introduces FinMCP-Bench, a novel benchmark for evaluating large language models (LLMs) in solving real-world financial problems through tool invocation of financial model context protocols. FinMCP-Bench contains 613 samples spanning 10 main scenarios and 33 sub-scenarios, featuring both real and synthetic user queries to ensure diversity and authenticity. It incorporates 65 real financial MCPs and three types of samples, single tool, multi-tool, and multi-turn, allowing evaluation of models across different levels of task complexity. Using this benchmark, we systematically assess a range of mainstream LLMs and propose metrics that explicitly measure tool invocation accuracy and reasoning capabilities. FinMCP-Bench provides a standardized, practical, and challenging testbed for advancing research on financial LLM agents.