FINESSE-Bench : une suite de benchmarks hiérarchique pour les connaissances du domaine financier et l'analyse technique dans les grands modèles de langage

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus appliqués à l'analyse financière, au reporting, au soutien aux décisions d'investissement, à la gestion des risques, à la conformité et à la formation professionnelle. Cependant, une évaluation robuste de leur compétence dans le domaine financier reste incomplète. Des benchmarks ouverts largement utilisés, tels que FinQA, ConvFinQA et TAT-QA, ont joué un rôle important dans l'avancement du question-réponse financier et du raisonnement numérique, mais ils se concentrent principalement sur le question-réponse sur les rapports financiers et ne fournissent pas une hiérarchie explicite de difficulté professionnelle. Des ressources plus larges, notamment FinanceBench, PIXIU, FinBen et FLaME, élargissent la couverture des tâches financières, mais le problème de l'évaluation de la transition entre les connaissances fondamentales et le raisonnement financier de niveau expert reste ouvert. Dans ce travail, nous présentons FINESSE-Bench, un ensemble de huit benchmarks spécialisés comprenant 3 399 questions pour une évaluation hiérarchique des compétences financières des LLMs. FINESSE-Bench combine des ensembles de données orientés examens inspirés des certifications professionnelles (niveaux 1 à 3 de type CFA, niveau 2 de type CMT et niveau 1 de type CFTe), des collections de tâches de trading appliquées et un benchmark d'olympiade en langue russe. Cette conception permet d'évaluer l'étendue du domaine, la dégradation des performances à mesure que la difficulté augmente, la capacité à résoudre des tâches computationnelles et le comportement des modèles dans des domaines financiers spécialisés. Nous décrivons également un protocole d'évaluation unifié couvrant les questions à choix multiples, les réponses numériques et les réponses courtes ouvertes, ainsi qu'un système de notation automatique pour les réponses libres basé sur le paradigme LLM-en-tant-que-juge. FINESSE-Bench est conçu à la fois comme un complément aux benchmarks financiers ouverts existants et comme un outil pour une évaluation plus substantielle des compétences financières professionnellement pertinentes dans les grands modèles de langage.

English

Large language models (LLMs) are increasingly being applied to financial analysis, reporting, investment decision support, risk management, compliance, and professional training. However, robust evaluation of their domain competence in finance remains incomplete. Widely used open benchmarks such as FinQA, ConvFinQA, and TAT-QA have played an important role in advancing financial question answering and numerical reasoning, but they focus primarily on question answering over financial reports and do not provide an explicit hierarchy of professional difficulty. Broader resources, including FinanceBench, PIXIU, FinBen, and FLaME, expand the coverage of financial tasks, yet the problem of evaluating the transition from foundational knowledge to expert-level financial reasoning remains open. In this work, we present FINESSE-Bench, a suite of eight specialized benchmarks comprising 3,993 questions for hierarchical evaluation of financial competencies in LLMs. FINESSE-Bench combines exam-oriented datasets inspired by professional certifications (CFA-like Levels 1-3, CMT-like Level 2, and CFTe-like Level 1), applied trading task collections, and a Russian-language olympiad benchmark. This design enables evaluation of domain breadth, performance degradation as difficulty increases, the ability to solve computational tasks, and model behavior in specialized financial domains. We also describe a unified evaluation protocol covering multiple-choice questions, numerical answers, and short open-ended responses, together with an automated scoring scheme for freeform answers based on the LLM-as-judge paradigm. FINESSE-Bench is intended both as a complement to existing open financial benchmarks and as a tool for more substantive evaluation of professionally relevant financial competencies in large language models.