FinAuditing: Um Benchmark Multidocumento Estruturado por Taxonomia Financeira para Avaliação de LLMs
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
Autores: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
Resumo
A complexidade dos Princípios Contábeis Geralmente Aceitos (GAAP) e a estrutura hierárquica dos arquivos em eXtensible Business Reporting Language (XBRL) tornam a auditoria financeira cada vez mais difícil de automatizar e verificar. Embora os modelos de linguagem de grande escala (LLMs) tenham demonstrado capacidades robustas na compreensão de textos não estruturados, sua habilidade para raciocinar sobre documentos financeiros estruturados, interdependentes e orientados por taxonomias permanece amplamente inexplorada. Para preencher essa lacuna, introduzimos o FinAuditing, o primeiro benchmark alinhado a taxonomias, consciente da estrutura e multi-documento para avaliar LLMs em tarefas de auditoria financeira. Construído a partir de arquivos XBRL reais em conformidade com os US-GAAP, o FinAuditing define três subtarefas complementares: FinSM para consistência semântica, FinRE para consistência relacional e FinMR para consistência numérica, cada uma visando um aspecto distinto do raciocínio estruturado em auditoria. Além disso, propomos um framework unificado de avaliação que integra métricas de recuperação, classificação e raciocínio nessas subtarefas. Experimentos extensivos em zero-shot com 13 LLMs state-of-the-art revelam que os modelos atuais apresentam desempenho inconsistente nas dimensões semântica, relacional e matemática, com quedas de precisão de até 60-90% ao raciocinar sobre estruturas hierárquicas multi-documento. Nossas descobertas expõem as limitações sistemáticas dos LLMs modernos no raciocínio financeiro baseado em taxonomias e estabelecem o FinAuditing como uma base para o desenvolvimento de sistemas de inteligência financeira confiáveis, conscientes da estrutura e alinhados às regulamentações. O conjunto de dados do benchmark está disponível no Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.