FinAuditing: Многодокументный эталонный набор данных с финансовой таксономической структурой для оценки языковых моделей
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
Авторы: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
Аннотация
Сложность Общепринятых принципов бухгалтерского учёта (GAAP) и иерархическая структура отчётов, составленных на языке eXtensible Business Reporting Language (XBRL), делают автоматизацию и проверку финансового аудита всё более трудной задачей. Хотя крупные языковые модели (LLM) продемонстрировали высокие способности в понимании неструктурированного текста, их способность к рассуждению над структурированными, взаимозависимыми и таксономически обусловленными финансовыми документами остаётся в значительной степени неисследованной. Чтобы заполнить этот пробел, мы представляем FinAuditing — первый таксономически выровненный, учитывающий структуру, многодокументный бенчмарк для оценки LLM в задачах финансового аудита. Созданный на основе реальных отчётов XBRL, соответствующих US-GAAP, FinAuditing определяет три взаимодополняющих подзадачи: FinSM для семантической согласованности, FinRE для реляционной согласованности и FinMR для численной согласованности, каждая из которых направлена на отдельный аспект структурированного аудиторского рассуждения. Мы также предлагаем унифицированную систему оценки, интегрирующую метрики поиска, классификации и рассуждения для этих подзадач. Масштабные эксперименты с нулевым обучением на 13 современных LLM показывают, что текущие модели демонстрируют нестабильные результаты в семантическом, реляционном и математическом измерениях, с падением точности до 60–90% при рассуждении над иерархическими многодокументными структурами. Наши результаты выявляют систематические ограничения современных LLM в таксономически обоснованном финансовом рассуждении и устанавливают FinAuditing в качестве основы для разработки надёжных, учитывающих структуру и соответствующих нормативным требованиям систем финансового интеллекта. Бенчмарк-набор данных доступен на Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.