FinMCP-Bench : Évaluation comparative des agents LLM pour l'utilisation d'outils financiers en conditions réelles selon le protocole de contexte de modèle

Résumé

Ce document présente FinMCP-Bench, un nouveau benchmark pour évaluer les grands modèles de langage (LLM) dans la résolution de problèmes financiers réels via l'invocation d'outils de protocoles de contexte de modèles financiers. FinMCP-Bench contient 613 échantillons couvrant 10 scénarios principaux et 33 sous-scénarios, incluant des requêtes utilisateur réelles et synthétiques pour garantir diversité et authenticité. Il intègre 65 MCP financiers réels et trois types d'échantillons (outil unique, multi-outils et multi-tours), permettant d'évaluer les modèles sur différents niveaux de complexité de tâches. En utilisant ce benchmark, nous évaluons systématiquement une série de LLM grand public et proposons des métriques mesurant explicitement la précision d'invocation d'outils et les capacités de raisonnement. FinMCP-Bench fournit un banc d'essai standardisé, pratique et exigeant pour faire progresser la recherche sur les agents LLM financiers.

English

This paper introduces FinMCP-Bench, a novel benchmark for evaluating large language models (LLMs) in solving real-world financial problems through tool invocation of financial model context protocols. FinMCP-Bench contains 613 samples spanning 10 main scenarios and 33 sub-scenarios, featuring both real and synthetic user queries to ensure diversity and authenticity. It incorporates 65 real financial MCPs and three types of samples, single tool, multi-tool, and multi-turn, allowing evaluation of models across different levels of task complexity. Using this benchmark, we systematically assess a range of mainstream LLMs and propose metrics that explicitly measure tool invocation accuracy and reasoning capabilities. FinMCP-Bench provides a standardized, practical, and challenging testbed for advancing research on financial LLM agents.

FinMCP-Bench : Évaluation comparative des agents LLM pour l'utilisation d'outils financiers en conditions réelles selon le protocole de contexte de modèle

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

Résumé

Support