FinAuditing: Un Benchmark Multi-Documento Estructurado por Taxonomía Financiera para Evaluar Modelos de Lenguaje Grande (LLMs)
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
October 10, 2025
Autores: Yan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie
cs.AI
Resumen
La complejidad de los Principios de Contabilidad Generalmente Aceptados (GAAP) y la estructura jerárquica de los archivos en eXtensible Business Reporting Language (XBRL) hacen que la auditoría financiera sea cada vez más difícil de automatizar y verificar. Si bien los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades sólidas en la comprensión de texto no estructurado, su habilidad para razonar sobre documentos financieros estructurados, interdependientes y basados en taxonomías sigue siendo en gran parte inexplorada. Para abordar esta brecha, presentamos FinAuditing, el primer benchmark alineado con taxonomías, consciente de la estructura y multi-documento para evaluar LLMs en tareas de auditoría financiera. Construido a partir de archivos XBRL reales que cumplen con los US-GAAP, FinAuditing define tres subtareas complementarias: FinSM para la consistencia semántica, FinRE para la consistencia relacional y FinMR para la consistencia numérica, cada una enfocada en un aspecto distinto del razonamiento estructurado en auditoría. Además, proponemos un marco de evaluación unificado que integra métricas de recuperación, clasificación y razonamiento en estas subtareas. Experimentos extensos en modo zero-shot con 13 LLMs de última generación revelan que los modelos actuales tienen un desempeño inconsistente en las dimensiones semántica, relacional y matemática, con caídas en la precisión de hasta un 60-90% al razonar sobre estructuras jerárquicas multi-documento. Nuestros hallazgos exponen las limitaciones sistemáticas de los LLMs modernos en el razonamiento financiero basado en taxonomías y establecen a FinAuditing como una base para desarrollar sistemas de inteligencia financiera confiables, conscientes de la estructura y alineados con las regulaciones. El conjunto de datos del benchmark está disponible en Hugging Face.
English
The complexity of the Generally Accepted Accounting Principles (GAAP) and the
hierarchical structure of eXtensible Business Reporting Language (XBRL) filings
make financial auditing increasingly difficult to automate and verify. While
large language models (LLMs) have demonstrated strong capabilities in
unstructured text understanding, their ability to reason over structured,
interdependent, and taxonomy-driven financial documents remains largely
unexplored. To fill this gap, we introduce FinAuditing, the first
taxonomy-aligned, structure-aware, multi-document benchmark for evaluating LLMs
on financial auditing tasks. Built from real US-GAAP-compliant XBRL filings,
FinAuditing defines three complementary subtasks, FinSM for semantic
consistency, FinRE for relational consistency, and FinMR for numerical
consistency, each targeting a distinct aspect of structured auditing reasoning.
We further propose a unified evaluation framework integrating retrieval,
classification, and reasoning metrics across these subtasks. Extensive
zero-shot experiments on 13 state-of-the-art LLMs reveal that current models
perform inconsistently across semantic, relational, and mathematical
dimensions, with accuracy drops of up to 60-90% when reasoning over
hierarchical multi-document structures. Our findings expose the systematic
limitations of modern LLMs in taxonomy-grounded financial reasoning and
establish FinAuditing as a foundation for developing trustworthy,
structure-aware, and regulation-aligned financial intelligence systems. The
benchmark dataset is available at Hugging Face.