Des scores aux compétences : un cadre de diagnostic cognitif pour l'évaluation des grands modèles de langage en finance

papers.abstract

Les modèles de langage de grande taille (LLMs) ont montré des perspectives prometteuses pour les applications financières, mais leur adéquation à ce domaine à haut risque reste largement non prouvée en raison des insuffisances des benchmarks existants. Les benchmarks actuels reposent uniquement sur une évaluation au niveau des scores, résumant la performance par un score unique qui masque une compréhension nuancée de ce que les modèles savent réellement et de leurs limites précises. Ils s'appuient également sur des ensembles de données qui ne couvrent qu'un sous-ensemble étroit de concepts financiers, tout en négligeant d'autres éléments essentiels pour les applications réelles. Pour combler ces lacunes, nous introduisons FinCDM, le premier cadre d'évaluation de diagnostic cognitif conçu pour les LLMs financiers, permettant d'évaluer les LLMs au niveau des connaissances et des compétences, en identifiant les compétences et connaissances financières qu'ils possèdent ou non sur la base de leurs schémas de réponse à des tâches étiquetées par compétences, plutôt que sur un seul nombre agrégé. Nous construisons CPA-QKA, le premier ensemble de données d'évaluation financière informé par la cognition, dérivé de l'examen du Certified Public Accountant (CPA), avec une couverture complète des compétences comptables et financières du monde réel. Il est rigoureusement annoté par des experts du domaine, qui rédigent, valident et annotent les questions avec un accord inter-annotateurs élevé et des étiquettes de connaissances fines. Nos expériences approfondies sur 30 LLMs propriétaires, open-source et spécifiques au domaine montrent que FinCDM révèle des lacunes de connaissances cachées, identifie des domaines sous-testés tels que le raisonnement fiscal et réglementaire négligés par les benchmarks traditionnels, et découvre des clusters comportementaux parmi les modèles. FinCDM introduit un nouveau paradigme pour l'évaluation des LLMs financiers en permettant un diagnostic interprétable et conscient des compétences qui soutient un développement de modèles plus fiable et ciblé, et tous les ensembles de données et scripts d'évaluation seront publiés pour soutenir des recherches ultérieures.

English

Large Language Models (LLMs) have shown promise for financial applications, yet their suitability for this high-stakes domain remains largely unproven due to inadequacies in existing benchmarks. Existing benchmarks solely rely on score-level evaluation, summarizing performance with a single score that obscures the nuanced understanding of what models truly know and their precise limitations. They also rely on datasets that cover only a narrow subset of financial concepts, while overlooking other essentials for real-world applications. To address these gaps, we introduce FinCDM, the first cognitive diagnosis evaluation framework tailored for financial LLMs, enabling the evaluation of LLMs at the knowledge-skill level, identifying what financial skills and knowledge they have or lack based on their response patterns across skill-tagged tasks, rather than a single aggregated number. We construct CPA-QKA, the first cognitively informed financial evaluation dataset derived from the Certified Public Accountant (CPA) examination, with comprehensive coverage of real-world accounting and financial skills. It is rigorously annotated by domain experts, who author, validate, and annotate questions with high inter-annotator agreement and fine-grained knowledge labels. Our extensive experiments on 30 proprietary, open-source, and domain-specific LLMs show that FinCDM reveals hidden knowledge gaps, identifies under-tested areas such as tax and regulatory reasoning overlooked by traditional benchmarks, and uncovers behavioral clusters among models. FinCDM introduces a new paradigm for financial LLM evaluation by enabling interpretable, skill-aware diagnosis that supports more trustworthy and targeted model development, and all datasets and evaluation scripts will be publicly released to support further research.

Des scores aux compétences : un cadre de diagnostic cognitif pour l'évaluation des grands modèles de langage en finance

From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

papers.abstract

Support