FinAuditing: Un Benchmark Strutturato su Tassonomia Finanziaria per la Valutazione di LLM su Documenti Multipli
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
Autori: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
Abstract
La complessità dei Principi Contabili Generalmente Accettati (GAAP) e la struttura gerarchica dei documenti eXtensible Business Reporting Language (XBRL) rendono sempre più difficile automatizzare e verificare l'audit finanziario. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato capacità avanzate nella comprensione di testi non strutturati, la loro abilità di ragionare su documenti finanziari strutturati, interdipendenti e guidati da tassonomie rimane in gran parte inesplorata. Per colmare questa lacuna, introduciamo FinAuditing, il primo benchmark allineato alla tassonomia, consapevole della struttura e multi-documento per valutare gli LLM su compiti di audit finanziario. Costruito a partire da documenti XBRL reali conformi agli US-GAAP, FinAuditing definisce tre sottotask complementari: FinSM per la coerenza semantica, FinRE per la coerenza relazionale e FinMR per la coerenza numerica, ciascuno mirato a un aspetto distinto del ragionamento strutturato nell'audit. Proponiamo inoltre un framework di valutazione unificato che integra metriche di recupero, classificazione e ragionamento attraverso questi sottotask. Esperimenti zero-shot su 13 LLM all'avanguardia rivelano che i modelli attuali mostrano prestazioni incoerenti nelle dimensioni semantiche, relazionali e matematiche, con cali di accuratezza fino al 60-90% quando si ragiona su strutture multi-documento gerarchiche. I nostri risultati evidenziano le limitazioni sistematiche dei moderni LLM nel ragionamento finanziario basato su tassonomie e stabiliscono FinAuditing come base per lo sviluppo di sistemi di intelligenza finanziaria affidabili, consapevoli della struttura e allineati alle normative. Il dataset del benchmark è disponibile su Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.