ChatPaper.aiChatPaper

FinAuditing: 대형 언어 모델 평가를 위한 재무 분류 체계 기반 다중 문서 벤치마크

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

October 10, 2025
저자: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI

초록

일반적으로 인정된 회계 원칙(GAAP)의 복잡성과 확장 가능한 비즈니스 보고 언어(XBRL) 제출의 계층적 구조는 재무 감사를 자동화하고 검증하는 것을 점점 더 어렵게 만듭니다. 대규모 언어 모델(LLM)은 비정형 텍스트 이해에서 강력한 능력을 보여주었지만, 구조화되고 상호 의존적이며 분류 체계 기반의 재무 문서에 대해 추론하는 능력은 여전히 크게 탐구되지 않았습니다. 이러한 격차를 메우기 위해, 우리는 재무 감사 작업에서 LLM을 평가하기 위한 첫 번째 분류 체계 정렬, 구조 인식, 다중 문서 벤치마크인 FinAuditing을 소개합니다. 실제 US-GAAP 준수 XBRL 제출 자료를 기반으로 구축된 FinAuditing은 구조화된 감사 추론의 각기 다른 측면을 대상으로 하는 세 가지 상호 보완적인 하위 작업을 정의합니다: 의미적 일관성을 위한 FinSM, 관계적 일관성을 위한 FinRE, 그리고 수치적 일관성을 위한 FinMR입니다. 우리는 더 나아가 이러한 하위 작업에 걸쳐 검색, 분류, 추론 메트릭을 통합한 통합 평가 프레임워크를 제안합니다. 13개의 최첨단 LLM에 대한 광범위한 제로샷 실험은 현재 모델들이 의미적, 관계적, 수학적 차원에서 일관되지 않은 성능을 보이며, 계층적 다중 문서 구조에 대해 추론할 때 정확도가 최대 60-90%까지 하락하는 것을 보여줍니다. 우리의 연구 결과는 현대 LLM의 분류 체계 기반 재무 추론에서의 체계적 한계를 드러내며, 신뢰할 수 있고 구조 인식적이며 규제에 부합하는 재무 지능 시스템 개발을 위한 기초로서 FinAuditing을 확립합니다. 벤치마크 데이터셋은 Hugging Face에서 이용 가능합니다.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the hierarchical structure of eXtensible Business Reporting Language (XBRL) filings make financial auditing increasingly difficult to automate and verify. While large language models (LLMs) have demonstrated strong capabilities in unstructured text understanding, their ability to reason over structured, interdependent, and taxonomy-driven financial documents remains largely unexplored. To fill this gap, we introduce FinAuditing, the first taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings, FinAuditing defines three complementary subtasks, FinSM for semantic consistency, FinRE for relational consistency, and FinMR for numerical consistency, each targeting a distinct aspect of structured auditing reasoning. We further propose a unified evaluation framework integrating retrieval, classification, and reasoning metrics across these subtasks. Extensive zero-shot experiments on 13 state-of-the-art LLMs reveal that current models perform inconsistently across semantic, relational, and mathematical dimensions, with accuracy drops of up to 60-90% when reasoning over hierarchical multi-document structures. Our findings expose the systematic limitations of modern LLMs in taxonomy-grounded financial reasoning and establish FinAuditing as a foundation for developing trustworthy, structure-aware, and regulation-aligned financial intelligence systems. The benchmark dataset is available at Hugging Face.
PDF192October 14, 2025