ChatPaper.aiChatPaper

FinAuditing: Un Benchmark Strutturato su Tassonomia Finanziaria per la Valutazione di LLM su Documenti Multipli

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

October 10, 2025
Autori: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI

Abstract

La complessità dei Principi Contabili Generalmente Accettati (GAAP) e la struttura gerarchica dei documenti eXtensible Business Reporting Language (XBRL) rendono sempre più difficile automatizzare e verificare l'audit finanziario. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato capacità avanzate nella comprensione di testi non strutturati, la loro abilità di ragionare su documenti finanziari strutturati, interdipendenti e guidati da tassonomie rimane in gran parte inesplorata. Per colmare questa lacuna, introduciamo FinAuditing, il primo benchmark allineato alla tassonomia, consapevole della struttura e multi-documento per valutare gli LLM su compiti di audit finanziario. Costruito a partire da documenti XBRL reali conformi agli US-GAAP, FinAuditing definisce tre sottotask complementari: FinSM per la coerenza semantica, FinRE per la coerenza relazionale e FinMR per la coerenza numerica, ciascuno mirato a un aspetto distinto del ragionamento strutturato nell'audit. Proponiamo inoltre un framework di valutazione unificato che integra metriche di recupero, classificazione e ragionamento attraverso questi sottotask. Esperimenti zero-shot su 13 LLM all'avanguardia rivelano che i modelli attuali mostrano prestazioni incoerenti nelle dimensioni semantiche, relazionali e matematiche, con cali di accuratezza fino al 60-90% quando si ragiona su strutture multi-documento gerarchiche. I nostri risultati evidenziano le limitazioni sistematiche dei moderni LLM nel ragionamento finanziario basato su tassonomie e stabiliscono FinAuditing come base per lo sviluppo di sistemi di intelligenza finanziaria affidabili, consapevoli della struttura e allineati alle normative. Il dataset del benchmark è disponibile su Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the hierarchical structure of eXtensible Business Reporting Language (XBRL) filings make financial auditing increasingly difficult to automate and verify. While large language models (LLMs) have demonstrated strong capabilities in unstructured text understanding, their ability to reason over structured, interdependent, and taxonomy-driven financial documents remains largely unexplored. To fill this gap, we introduce FinAuditing, the first taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings, FinAuditing defines three complementary subtasks, FinSM for semantic consistency, FinRE for relational consistency, and FinMR for numerical consistency, each targeting a distinct aspect of structured auditing reasoning. We further propose a unified evaluation framework integrating retrieval, classification, and reasoning metrics across these subtasks. Extensive zero-shot experiments on 13 state-of-the-art LLMs reveal that current models perform inconsistently across semantic, relational, and mathematical dimensions, with accuracy drops of up to 60-90% when reasoning over hierarchical multi-document structures. Our findings expose the systematic limitations of modern LLMs in taxonomy-grounded financial reasoning and establish FinAuditing as a foundation for developing trustworthy, structure-aware, and regulation-aligned financial intelligence systems. The benchmark dataset is available at Hugging Face.
PDF192October 14, 2025