ChatPaper.aiChatPaper

FinAuditing: 大規模言語モデル評価のための財務タクソノミー構造化マルチドキュメントベンチマーク

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

October 10, 2025
著者: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI

要旨

一般に公正妥当と認められた会計原則(GAAP)の複雑さと、拡張可能なビジネス報告言語(XBRL)提出文書の階層構造により、財務監査の自動化と検証はますます困難になっています。大規模言語モデル(LLM)は非構造化テキストの理解において強力な能力を示していますが、構造化され相互依存し、タクソノミーに基づく財務文書に対する推論能力はほとんど未開拓のままです。このギャップを埋めるため、我々はFinAuditingを導入します。これは、財務監査タスクにおけるLLMを評価するための初のタクソノミー整合型、構造認識型、マルチドキュメントベンチマークです。米国GAAP準拠のXBRL提出文書から構築されたFinAuditingは、構造化監査推論の異なる側面をターゲットとする3つの補完的なサブタスク、FinSM(意味的一貫性)、FinRE(関係的一貫性)、FinMR(数値的一貫性)を定義します。さらに、これらのサブタスクにわたる検索、分類、推論メトリクスを統合した評価フレームワークを提案します。13の最先端LLMに対する広範なゼロショット実験により、現在のモデルは意味的、関係的、数学的次元で一貫性のないパフォーマンスを示し、階層的なマルチドキュメント構造を推論する際に精度が最大60-90%低下することが明らかになりました。我々の調査結果は、現代のLLMがタクソノミーに基づく財務推論において体系的に制限されていることを暴露し、FinAuditingを信頼性のある、構造認識型で規制整合型の財務知能システムを開発するための基盤として確立します。ベンチマークデータセットはHugging Faceで公開されています。
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the hierarchical structure of eXtensible Business Reporting Language (XBRL) filings make financial auditing increasingly difficult to automate and verify. While large language models (LLMs) have demonstrated strong capabilities in unstructured text understanding, their ability to reason over structured, interdependent, and taxonomy-driven financial documents remains largely unexplored. To fill this gap, we introduce FinAuditing, the first taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings, FinAuditing defines three complementary subtasks, FinSM for semantic consistency, FinRE for relational consistency, and FinMR for numerical consistency, each targeting a distinct aspect of structured auditing reasoning. We further propose a unified evaluation framework integrating retrieval, classification, and reasoning metrics across these subtasks. Extensive zero-shot experiments on 13 state-of-the-art LLMs reveal that current models perform inconsistently across semantic, relational, and mathematical dimensions, with accuracy drops of up to 60-90% when reasoning over hierarchical multi-document structures. Our findings expose the systematic limitations of modern LLMs in taxonomy-grounded financial reasoning and establish FinAuditing as a foundation for developing trustworthy, structure-aware, and regulation-aligned financial intelligence systems. The benchmark dataset is available at Hugging Face.
PDF192October 14, 2025