AUDITFLOW: Uitvoerbare Symbolische Omgevingen voor Verificatie van Gestructureerde Financiële Rapportages

Samenvatting

Gestructureerde financiële auditverificatie is moeilijk voor taalmodellen omdat correctheid afhangt van gestructureerd bewijs in plaats van alleen tekst. Een model moet gerapporteerde feiten koppelen aan taxonomieconcepten, rekenkundige of dimensionale relaties doorlopen en verwachte waarden herberekenen voordat een auditregel wordt toegepast. We stellen AuditFlow voor, een op grafieken gebaseerd multi-agentraamwerk dat adaptief zoeken scheidt van deterministische verificatie. AuditFlow bouwt een symbolische omgeving op uit een statische US-GAAP-taxonomiegraaf en een dynamische XBRL-depotgraaf, en stelt deze beschikbaar via getypeerde hulpmiddelen voor feitenopvraging, taxonomiedoorloping, numerieke controle en regelevaluatie. Twee junior auditors onderzoeken elk geval vanuit regelgevend en bewijstechnisch perspectief, terwijl een senior auditor meningsverschillen beslecht en om nader onderzoek kan vragen. De eindrapporten worden samengevoegd via bewijsaggregatie om een auditoordeel, verwachte waarde, bewijsketen en betrouwbaarheidsscore te produceren. Op een van FinAuditing afgeleide FinMR-steekproef bereikt AuditFlow 82,09% gezamenlijke auditnauwkeurigheid onder GPT-5.5, waarmee het de sterkste basislijn met 14,93 punten overtreft. Het verwijderen van deterministische controles doet de nauwkeurigheid dalen tot 17,91%, wat aantoont dat de symbolische omgeving de verificatiestap uitvoert die het model niet betrouwbaar kan vervangen.

English

Structured financial audit verification is difficult for language-model agents because correctness depends on structured evidence rather than text alone. A model must link reported facts to taxonomy concepts, traverse calculation or dimensional relations, and recompute expected values before applying an audit rule. We propose AuditFlow, a graph-grounded multi-agent framework that separates adaptive search from deterministic verification. AuditFlow builds a symbolic environment from a static US-GAAP taxonomy graph and a dynamic XBRL filing graph, and exposes it through typed tools for fact retrieval, taxonomy traversal, numerical checking, and rule evaluation. Two junior auditors inspect each case from regulatory and evidentiary views, while a senior auditor resolves disagreements and can request further investigation. The final reports are fused through evidential aggregation to produce an audit verdict, expected value, evidence trail, and trustworthiness score. On a FinAuditing-derived FinMR sample, AuditFlow reaches 82.09% joint audit accuracy under GPT-5.5, outperforming the strongest baseline by 14.93 points. Removing deterministic checks drops accuracy to 17.91%, showing that the symbolic environment performs the verification step that the model cannot reliably replace.