Da Punteggi a Competenze: Un Framework di Diagnosi Cognitiva per la Valutazione dei Modelli Linguistici su Larga Scala nel Settore Finanziario
From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models
August 19, 2025
Autori: Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato potenziale per applicazioni finanziarie, ma la loro idoneità per questo dominio ad alto rischio rimane in gran parte non verificata a causa delle carenze nei benchmark esistenti. I benchmark attuali si basano esclusivamente su valutazioni a livello di punteggio, riassumendo le prestazioni con un singolo punteggio che oscura la comprensione dettagliata di ciò che i modelli sanno veramente e dei loro limiti precisi. Inoltre, si affidano a dataset che coprono solo un sottoinsieme ristretto di concetti finanziari, trascurando altri elementi essenziali per applicazioni nel mondo reale. Per colmare queste lacune, introduciamo FinCDM, il primo framework di valutazione diagnostica cognitiva progettato specificamente per LLM finanziari, che consente la valutazione dei modelli a livello di conoscenza e abilità, identificando quali competenze e conoscenze finanziarie possiedono o mancano in base ai loro schemi di risposta su task etichettati per abilità, anziché un singolo numero aggregato. Costruiamo CPA-QKA, il primo dataset di valutazione finanziaria cognitivamente informato derivato dall'esame per Certified Public Accountant (CPA), con una copertura completa delle competenze contabili e finanziarie del mondo reale. È rigorosamente annotato da esperti del settore, che creano, validano e annotano le domande con un elevato accordo tra annotatori e etichette di conoscenza granulari. I nostri esperimenti estensivi su 30 LLM proprietari, open-source e specifici per il dominio mostrano che FinCDM rivela lacune di conoscenza nascoste, identifica aree sottoposte a test insufficienti come il ragionamento fiscale e normativo trascurato dai benchmark tradizionali, e scopre cluster comportamentali tra i modelli. FinCDM introduce un nuovo paradigma per la valutazione degli LLM finanziari, consentendo una diagnosi interpretabile e consapevole delle abilità che supporta uno sviluppo di modelli più affidabile e mirato. Tutti i dataset e gli script di valutazione saranno rilasciati pubblicamente per supportare ulteriori ricerche.
English
Large Language Models (LLMs) have shown promise for financial applications,
yet their suitability for this high-stakes domain remains largely unproven due
to inadequacies in existing benchmarks. Existing benchmarks solely rely on
score-level evaluation, summarizing performance with a single score that
obscures the nuanced understanding of what models truly know and their precise
limitations. They also rely on datasets that cover only a narrow subset of
financial concepts, while overlooking other essentials for real-world
applications. To address these gaps, we introduce FinCDM, the first cognitive
diagnosis evaluation framework tailored for financial LLMs, enabling the
evaluation of LLMs at the knowledge-skill level, identifying what financial
skills and knowledge they have or lack based on their response patterns across
skill-tagged tasks, rather than a single aggregated number. We construct
CPA-QKA, the first cognitively informed financial evaluation dataset derived
from the Certified Public Accountant (CPA) examination, with comprehensive
coverage of real-world accounting and financial skills. It is rigorously
annotated by domain experts, who author, validate, and annotate questions with
high inter-annotator agreement and fine-grained knowledge labels. Our extensive
experiments on 30 proprietary, open-source, and domain-specific LLMs show that
FinCDM reveals hidden knowledge gaps, identifies under-tested areas such as tax
and regulatory reasoning overlooked by traditional benchmarks, and uncovers
behavioral clusters among models. FinCDM introduces a new paradigm for
financial LLM evaluation by enabling interpretable, skill-aware diagnosis that
supports more trustworthy and targeted model development, and all datasets and
evaluation scripts will be publicly released to support further research.