FinAuditing: Ein finanziell taxonomiestrukturierter Multi-Dokument-Benchmark zur Bewertung von LLMs
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
papers.authors: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
papers.abstract
Die Komplexität der Generally Accepted Accounting Principles (GAAP) und die hierarchische Struktur von eXtensible Business Reporting Language (XBRL)-Einreichungen machen die Automatisierung und Überprüfung von Finanzprüfungen zunehmend schwierig. Während große Sprachmodelle (LLMs) starke Fähigkeiten im Verständnis unstrukturierter Texte gezeigt haben, bleibt ihre Fähigkeit, über strukturierte, voneinander abhängige und taxonomiegesteuerte Finanzdokumente zu schlussfolgern, weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir FinAuditing vor, den ersten taxonomieausgerichteten, strukturbewussten und mehrdokumentbasierten Benchmark zur Bewertung von LLMs bei Finanzprüfungsaufgaben. Basierend auf realen US-GAAP-konformen XBRL-Einreichungen definiert FinAuditing drei komplementäre Teilaufgaben: FinSM für semantische Konsistenz, FinRE für relationale Konsistenz und FinMR für numerische Konsistenz, die jeweils einen bestimmten Aspekt des strukturierten Prüfungsdenkens abdecken. Wir schlagen weiterhin ein einheitliches Bewertungsframework vor, das Retrieval-, Klassifikations- und Schlussfolgerungsmetriken über diese Teilaufgaben hinweg integriert. Umfangreiche Zero-Shot-Experimente mit 13 modernsten LLMs zeigen, dass aktuelle Modelle inkonsistent über semantische, relationale und mathematische Dimensionen hinweg abschneiden, mit Genauigkeitseinbußen von bis zu 60-90 % beim Schlussfolgern über hierarchische Mehrdokumentstrukturen. Unsere Ergebnisse legen die systematischen Grenzen moderner LLMs bei der taxonomiebasierten Finanzschlussfolgerung offen und etablieren FinAuditing als Grundlage für die Entwicklung vertrauenswürdiger, strukturbewusster und regulierungskonformer Finanzintelligenzsysteme. Der Benchmark-Datensatz ist auf Hugging Face verfügbar.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.