ChatPaper.aiChatPaper

AUDITFLOW: 구조화된 재무 보고 검증을 위한 실행 가능한 심볼릭 환경들

AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

June 2, 2026
저자: Yan Wang, Xuguang Ai, Jaisal Patel, Xueqing Peng, Fengran Mo, Yupeng Cao, Haohang Li, Mingyu Cao, Lingfei Qian, Víctor Gutiérrez-Basulto
cs.AI

초록

구조화된 재무 감사 검증은 언어 모델 에이전트에게 어려운 작업이다. 정확성이 텍스트만이 아닌 구조화된 증거에 의존하기 때문이다. 모델은 보고된 사실을 분류 체계 개념과 연결하고, 계산 또는 차원 관계를 탐색한 후, 감사 규칙을 적용하기 전에 기대값을 재계산해야 한다. 본 논문에서는 적응형 검색과 결정론적 검증을 분리하는 그래프 기반 다중 에이전트 프레임워크인 AuditFlow를 제안한다. AuditFlow는 정적인 US-GAAP 분류 체계 그래프와 동적인 XBRL 제출 그래프로 구성된 상징적 환경을 구축하고, 사실 검색, 분류 체계 탐색, 수치 확인, 규칙 평가를 위한 유형화된 도구를 통해 이를 노출한다. 두 명의 주니어 감사관이 각 사례를 규제 및 증거 관점에서 검토하고, 시니어 감사관이 의견 불일치를 해결하며 추가 조사를 요청할 수 있다. 최종 보고서는 증거 집계를 통해 융합되어 감사 판정, 기대값, 증거 경로 및 신뢰도 점수를 산출한다. FinAuditing에서 파생된 FinMR 샘플에서 AuditFlow는 GPT-5.5에서 82.09%의 공동 감사 정확도를 달성하여 가장 강력한 기준 모델을 14.93% 포인트 초과했다. 결정론적 검증을 제거하면 정확도가 17.91%로 떨어지며, 이는 상징적 환경이 모델이 신뢰성 있게 대체할 수 없는 검증 단계를 수행함을 보여준다.
English
Structured financial audit verification is difficult for language-model agents because correctness depends on structured evidence rather than text alone. A model must link reported facts to taxonomy concepts, traverse calculation or dimensional relations, and recompute expected values before applying an audit rule. We propose AuditFlow, a graph-grounded multi-agent framework that separates adaptive search from deterministic verification. AuditFlow builds a symbolic environment from a static US-GAAP taxonomy graph and a dynamic XBRL filing graph, and exposes it through typed tools for fact retrieval, taxonomy traversal, numerical checking, and rule evaluation. Two junior auditors inspect each case from regulatory and evidentiary views, while a senior auditor resolves disagreements and can request further investigation. The final reports are fused through evidential aggregation to produce an audit verdict, expected value, evidence trail, and trustworthiness score. On a FinAuditing-derived FinMR sample, AuditFlow reaches 82.09% joint audit accuracy under GPT-5.5, outperforming the strongest baseline by 14.93 points. Removing deterministic checks drops accuracy to 17.91%, showing that the symbolic environment performs the verification step that the model cannot reliably replace.