FinAuditing : Un benchmark multi-document structuré par taxonomie financière pour l'évaluation des LLM
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
papers.authors: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
papers.abstract
La complexité des Principes Comptables Généralement Reconnus (GAAP) et la structure hiérarchique des déclarations en langage eXtensible Business Reporting Language (XBRL) rendent l'audit financier de plus en plus difficile à automatiser et à vérifier. Bien que les grands modèles de langage (LLMs) aient démontré de solides capacités dans la compréhension de textes non structurés, leur aptitude à raisonner sur des documents financiers structurés, interdépendants et basés sur une taxonomie reste largement inexplorée. Pour combler cette lacune, nous introduisons FinAuditing, le premier benchmark aligné sur une taxonomie, conscient de la structure et multi-document, conçu pour évaluer les LLMs sur des tâches d'audit financier. Construit à partir de déclarations XBRL réelles conformes aux US-GAAP, FinAuditing définit trois sous-tâches complémentaires : FinSM pour la cohérence sémantique, FinRE pour la cohérence relationnelle, et FinMR pour la cohérence numérique, chacune ciblant un aspect distinct du raisonnement structuré en audit. Nous proposons en outre un cadre d'évaluation unifié intégrant des métriques de recherche, de classification et de raisonnement pour ces sous-tâches. Des expériences en zero-shot menées sur 13 LLMs de pointe révèlent que les modèles actuels présentent des performances incohérentes sur les dimensions sémantiques, relationnelles et mathématiques, avec des baisses de précision allant jusqu'à 60-90% lors du raisonnement sur des structures multi-document hiérarchiques. Nos résultats mettent en lumière les limitations systématiques des LLMs modernes dans le raisonnement financier ancré dans une taxonomie et établissent FinAuditing comme une base pour développer des systèmes d'intelligence financière fiables, conscients de la structure et alignés sur les régulations. Le jeu de données du benchmark est disponible sur Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.