Des scores aux compétences : un cadre de diagnostic cognitif pour l'évaluation des grands modèles de langage en finance
From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models
August 19, 2025
papers.authors: Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont montré des perspectives prometteuses pour les applications financières, mais leur adéquation à ce domaine à haut risque reste largement non prouvée en raison des insuffisances des benchmarks existants. Les benchmarks actuels reposent uniquement sur une évaluation au niveau des scores, résumant la performance par un score unique qui masque une compréhension nuancée de ce que les modèles savent réellement et de leurs limites précises. Ils s'appuient également sur des ensembles de données qui ne couvrent qu'un sous-ensemble étroit de concepts financiers, tout en négligeant d'autres éléments essentiels pour les applications réelles. Pour combler ces lacunes, nous introduisons FinCDM, le premier cadre d'évaluation de diagnostic cognitif conçu pour les LLMs financiers, permettant d'évaluer les LLMs au niveau des connaissances et des compétences, en identifiant les compétences et connaissances financières qu'ils possèdent ou non sur la base de leurs schémas de réponse à des tâches étiquetées par compétences, plutôt que sur un seul nombre agrégé. Nous construisons CPA-QKA, le premier ensemble de données d'évaluation financière informé par la cognition, dérivé de l'examen du Certified Public Accountant (CPA), avec une couverture complète des compétences comptables et financières du monde réel. Il est rigoureusement annoté par des experts du domaine, qui rédigent, valident et annotent les questions avec un accord inter-annotateurs élevé et des étiquettes de connaissances fines. Nos expériences approfondies sur 30 LLMs propriétaires, open-source et spécifiques au domaine montrent que FinCDM révèle des lacunes de connaissances cachées, identifie des domaines sous-testés tels que le raisonnement fiscal et réglementaire négligés par les benchmarks traditionnels, et découvre des clusters comportementaux parmi les modèles. FinCDM introduit un nouveau paradigme pour l'évaluation des LLMs financiers en permettant un diagnostic interprétable et conscient des compétences qui soutient un développement de modèles plus fiable et ciblé, et tous les ensembles de données et scripts d'évaluation seront publiés pour soutenir des recherches ultérieures.
English
Large Language Models (LLMs) have shown promise for financial applications,
yet their suitability for this high-stakes domain remains largely unproven due
to inadequacies in existing benchmarks. Existing benchmarks solely rely on
score-level evaluation, summarizing performance with a single score that
obscures the nuanced understanding of what models truly know and their precise
limitations. They also rely on datasets that cover only a narrow subset of
financial concepts, while overlooking other essentials for real-world
applications. To address these gaps, we introduce FinCDM, the first cognitive
diagnosis evaluation framework tailored for financial LLMs, enabling the
evaluation of LLMs at the knowledge-skill level, identifying what financial
skills and knowledge they have or lack based on their response patterns across
skill-tagged tasks, rather than a single aggregated number. We construct
CPA-QKA, the first cognitively informed financial evaluation dataset derived
from the Certified Public Accountant (CPA) examination, with comprehensive
coverage of real-world accounting and financial skills. It is rigorously
annotated by domain experts, who author, validate, and annotate questions with
high inter-annotator agreement and fine-grained knowledge labels. Our extensive
experiments on 30 proprietary, open-source, and domain-specific LLMs show that
FinCDM reveals hidden knowledge gaps, identifies under-tested areas such as tax
and regulatory reasoning overlooked by traditional benchmarks, and uncovers
behavioral clusters among models. FinCDM introduces a new paradigm for
financial LLM evaluation by enabling interpretable, skill-aware diagnosis that
supports more trustworthy and targeted model development, and all datasets and
evaluation scripts will be publicly released to support further research.