FinMCP-Bench: Avaliação Comparativa de Agentes de LLM para Uso de Ferramentas Financeiras do Mundo Real sob o Protocolo de Contexto do Modelo
FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
March 26, 2026
Autores: Jie Zhu, Yimin Tian, Boyang Li, Kehao Wu, Zhongzhi Liang, Junhui Li, Xianyin Zhang, Lifan Guo, Feng Chen, Yong Liu, Chi Zhang
cs.AI
Resumo
Este artigo apresenta o FinMCP-Bench, um novo benchmark para avaliar modelos de linguagem de grande escala (LLMs) na resolução de problemas financeiros do mundo real por meio da invocação de ferramentas de protocolos de contexto de modelo financeiro (MCPs). O FinMCP-Bench contém 613 amostras abrangendo 10 cenários principais e 33 subcenários, apresentando consultas de usuários reais e sintéticas para garantir diversidade e autenticidade. Ele incorpora 65 MCPs financeiros reais e três tipos de amostras - ferramenta única, múltiplas ferramentas e múltiplos turnos - permitindo a avaliação dos modelos em diferentes níveis de complexidade de tarefas. Utilizando este benchmark, avaliamos sistematicamente uma série de LLMs predominantes e propomos métricas que medem explicitamente a precisão na invocação de ferramentas e as capacidades de raciocínio. O FinMCP-Bench fornece um ambiente de teste padronizado, prático e desafiador para avançar a pesquisa sobre agentes de LLM na área financeira.
English
This paper introduces FinMCP-Bench, a novel benchmark for evaluating large language models (LLMs) in solving real-world financial problems through tool invocation of financial model context protocols. FinMCP-Bench contains 613 samples spanning 10 main scenarios and 33 sub-scenarios, featuring both real and synthetic user queries to ensure diversity and authenticity. It incorporates 65 real financial MCPs and three types of samples, single tool, multi-tool, and multi-turn, allowing evaluation of models across different levels of task complexity. Using this benchmark, we systematically assess a range of mainstream LLMs and propose metrics that explicitly measure tool invocation accuracy and reasoning capabilities. FinMCP-Bench provides a standardized, practical, and challenging testbed for advancing research on financial LLM agents.