FinAuditing: Een financieel taxonomie-gestructureerde multi-document benchmark voor de evaluatie van LLM's
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
Auteurs: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
Samenvatting
De complexiteit van de Generally Accepted Accounting Principles (GAAP) en de hiërarchische structuur van eXtensible Business Reporting Language (XBRL)-rapportages maken financiële auditing steeds moeilijker te automatiseren en te verifiëren. Hoewel grote taalmmodellen (LLMs) sterke capaciteiten hebben getoond in het begrijpen van ongestructureerde tekst, blijft hun vermogen om te redeneren over gestructureerde, onderling afhankelijke en taxonomie-gestuurde financiële documenten grotendeels onontgonnen. Om deze leemte op te vullen, introduceren we FinAuditing, de eerste taxonomie-afgestemde, structuurbewuste, multi-document benchmark voor het evalueren van LLMs op financiële auditingtaken. Gebouwd op basis van echte US-GAAP-conforme XBRL-rapportages, definieert FinAuditing drie complementaire subtaken: FinSM voor semantische consistentie, FinRE voor relationele consistentie en FinMR voor numerieke consistentie, elk gericht op een specifiek aspect van gestructureerd auditredeneren. We stellen verder een geïntegreerd evaluatieraamwerk voor dat retrieval-, classificatie- en redeneermetrieken combineert over deze subtaken. Uitgebreide zero-shot experimenten op 13 state-of-the-art LLMs laten zien dat huidige modellen inconsistente prestaties leveren over semantische, relationele en wiskundige dimensies, met nauwkeurigheidsdalingen tot wel 60-90% bij het redeneren over hiërarchische multi-documentstructuren. Onze bevindingen onthullen de systematische beperkingen van moderne LLMs in taxonomie-gebaseerd financieel redeneren en vestigen FinAuditing als een basis voor het ontwikkelen van betrouwbare, structuurbewuste en regelgeving-afgestemde financiële intelligentiesystemen. De benchmarkdataset is beschikbaar op Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.