От оценок к навыкам: когнитивная диагностическая структура для оценки финансовых больших языковых моделей

Аннотация

Крупные языковые модели (LLM) демонстрируют перспективность для финансовых приложений, однако их пригодность для этой высокорисковой области остается в значительной степени недоказанной из-за недостатков существующих тестовых наборов. Современные тестовые наборы полагаются исключительно на оценку на уровне баллов, суммируя производительность с помощью единого показателя, который скрывает детальное понимание того, что модели действительно знают, и их точные ограничения. Они также используют наборы данных, охватывающие лишь узкий подмножество финансовых концепций, игнорируя другие важные аспекты для реальных приложений. Для устранения этих пробелов мы представляем FinCDM — первую когнитивную диагностическую оценочную структуру, разработанную специально для финансовых LLM, которая позволяет оценивать LLM на уровне знаний и навыков, выявляя, какие финансовые навыки и знания они имеют или не имеют, на основе их паттернов ответов на задачи с метками навыков, а не на основе единого агрегированного числа. Мы создаем CPA-QKA — первый когнитивно-ориентированный финансовый оценочный набор данных, основанный на экзамене для сертифицированных бухгалтеров (CPA), с полным охватом реальных навыков в области бухгалтерского учета и финансов. Он тщательно аннотирован экспертами в данной области, которые разрабатывают, проверяют и аннотируют вопросы с высокой согласованностью между аннотаторами и детализированными метками знаний. Наши обширные эксперименты с 30 проприетарными, открытыми и специализированными LLM показывают, что FinCDM выявляет скрытые пробелы в знаниях, идентифицирует недостаточно проверенные области, такие как налоговое и регуляторное мышление, упущенные традиционными тестовыми наборами, и обнаруживает поведенческие кластеры среди моделей. FinCDM представляет новую парадигму для оценки финансовых LLM, обеспечивая интерпретируемую, ориентированную на навыки диагностику, которая способствует более надежной и целенаправленной разработке моделей. Все наборы данных и скрипты для оценки будут опубликованы для поддержки дальнейших исследований.

English

Large Language Models (LLMs) have shown promise for financial applications, yet their suitability for this high-stakes domain remains largely unproven due to inadequacies in existing benchmarks. Existing benchmarks solely rely on score-level evaluation, summarizing performance with a single score that obscures the nuanced understanding of what models truly know and their precise limitations. They also rely on datasets that cover only a narrow subset of financial concepts, while overlooking other essentials for real-world applications. To address these gaps, we introduce FinCDM, the first cognitive diagnosis evaluation framework tailored for financial LLMs, enabling the evaluation of LLMs at the knowledge-skill level, identifying what financial skills and knowledge they have or lack based on their response patterns across skill-tagged tasks, rather than a single aggregated number. We construct CPA-QKA, the first cognitively informed financial evaluation dataset derived from the Certified Public Accountant (CPA) examination, with comprehensive coverage of real-world accounting and financial skills. It is rigorously annotated by domain experts, who author, validate, and annotate questions with high inter-annotator agreement and fine-grained knowledge labels. Our extensive experiments on 30 proprietary, open-source, and domain-specific LLMs show that FinCDM reveals hidden knowledge gaps, identifies under-tested areas such as tax and regulatory reasoning overlooked by traditional benchmarks, and uncovers behavioral clusters among models. FinCDM introduces a new paradigm for financial LLM evaluation by enabling interpretable, skill-aware diagnosis that supports more trustworthy and targeted model development, and all datasets and evaluation scripts will be publicly released to support further research.

От оценок к навыкам: когнитивная диагностическая структура для оценки финансовых больших языковых моделей

From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

Аннотация

Support