ChatPaper.aiChatPaper

AUDITFLOW: 構造化財務報告検証のための実行可能なシンボリック環境

AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

June 2, 2026
著者: Yan Wang, Xuguang Ai, Jaisal Patel, Xueqing Peng, Fengran Mo, Yupeng Cao, Haohang Li, Mingyu Cao, Lingfei Qian, Víctor Gutiérrez-Basulto
cs.AI

要旨

構造化財務監査の検証は言語モデルエージェントにとって困難である。なぜなら、その正確性はテキストのみならず構造化された証拠に依存するからである。モデルは報告された事実をタクソノミ概念に結び付け、計算次元関係を辿り、監査ルールを適用する前に期待値を再計算しなければならない。本稿では、適応的探索と決定的検証を分離するグラフ基盤型マルチエージェントフレームワーク「AuditFlow」を提案する。AuditFlowは、静的US-GAAPタクソノミグラフと動的XBRL提出グラフからシンボリック環境を構築し、事実検索、タクソノミ探索、数値チェック、ルール評価のための型付きツールを通じてこれを公開する。2名のジュニア監査人が各事例を規制観点と証拠観点から調査し、シニア監査人が意見の相違を解決し、さらなる調査を依頼する。最終報告書は証拠集約により融合され、監査判定、期待値、証拠の連鎖、信頼性スコアを生成する。FinAuditing由来のFinMRサンプルにおいて、AuditFlowはGPT-5.5下で82.09%の合同監査精度を達成し、最強のベースラインを14.93ポイント上回った。決定的チェックを除去すると精度は17.91%に低下し、シンボリック環境がモデルでは確実に代替できない検証ステップを実行していることが示された。
English
Structured financial audit verification is difficult for language-model agents because correctness depends on structured evidence rather than text alone. A model must link reported facts to taxonomy concepts, traverse calculation or dimensional relations, and recompute expected values before applying an audit rule. We propose AuditFlow, a graph-grounded multi-agent framework that separates adaptive search from deterministic verification. AuditFlow builds a symbolic environment from a static US-GAAP taxonomy graph and a dynamic XBRL filing graph, and exposes it through typed tools for fact retrieval, taxonomy traversal, numerical checking, and rule evaluation. Two junior auditors inspect each case from regulatory and evidentiary views, while a senior auditor resolves disagreements and can request further investigation. The final reports are fused through evidential aggregation to produce an audit verdict, expected value, evidence trail, and trustworthiness score. On a FinAuditing-derived FinMR sample, AuditFlow reaches 82.09% joint audit accuracy under GPT-5.5, outperforming the strongest baseline by 14.93 points. Removing deterministic checks drops accuracy to 17.91%, showing that the symbolic environment performs the verification step that the model cannot reliably replace.