RaV-IDP: Een reconstructie-als-validatie raamwerk voor betrouwbare intelligente documentverwerking

Samenvatting

Intelligente documentverwerkingspijplijnen extraheren gestructureerde entiteiten (tabellen, afbeeldingen en tekst) uit documenten voor gebruik in downstreamsystemen zoals kennisbanken, retrieval-augmented generation en analytische toepassingen. Een hardnekkige beperking van bestaande pijplijnen is dat de extractieresultaten worden geproduceerd zonder een intrinsiek mechanisme om te verifiëren of ze de bron getrouw vertegenwoordigen. Modelinterne betrouwbaarheidsscores meten de zekerheid van de inferentie, niet de correspondentie met het document, en extractiefouten worden stilzwijgend doorgegeven aan downstreamconsumenten. Wij presenteren Reconstruction as Validation (RaV-IDP), een documentverwerkingspijplijn die reconstructie introduceert als een eersteklas architectuurcomponent. Nadat elke entiteit is geëxtraheerd, rendert een toegewijde reconstructor de geëxtraheerde representatie terug naar een vorm die vergelijkbaar is met het oorspronkelijke documentgebied, en een comparator scoort de trouw tussen de reconstructie en de onbewerkte bronweergave. Deze trouwscore is een gegronde, labelvrije kwaliteitssignaal. Wanneer de trouw onder een drempelwaarde per entiteitstype zakt, wordt een gestructureerde GPT-4.1 vision-fallback geactiveerd en herhaalt de validatielus zich. Wij handhaven een bootstrapbeperking: de comparator anker zich altijd op het oorspronkelijke documentgebied, nooit op de extractie, waardoor wordt voorkomen dat de validatie circulair wordt. Wij stellen verder een per-fase evaluatieraamwerk voor dat elke pijplijncomponent koppelt aan een passende benchmark. De codepijplijn is openbaar beschikbaar op https://github.com/pritesh-2711/RaV-IDP voor experimenten en gebruik.

English

Intelligent document processing pipelines extract structured entities (tables, images, and text) from documents for use in downstream systems such as knowledge bases, retrieval-augmented generation, and analytics. A persistent limitation of existing pipelines is that extraction output is produced without any intrinsic mechanism to verify whether it faithfully represents the source. Model-internal confidence scores measure inference certainty, not correspondence to the document, and extraction errors pass silently into downstream consumers. We present Reconstruction as Validation (RaV-IDP), a document processing pipeline that introduces reconstruction as a first-class architectural component. After each entity is extracted, a dedicated reconstructor renders the extracted representation back into a form comparable to the original document region, and a comparator scores fidelity between the reconstruction and the unmodified source crop. This fidelity score is a grounded, label-free quality signal. When fidelity falls below a per-entity-type threshold, a structured GPT-4.1 vision fallback is triggered and the validation loop repeats. We enforce a bootstrap constraint: the comparator always anchors against the original document region, never against the extraction, preventing the validation from becoming circular. We further propose a per-stage evaluation framework pairing each pipeline component with an appropriate benchmark. The code pipeline is publicly available at https://github.com/pritesh-2711/RaV-IDP for experimentation and use.

RaV-IDP: Een reconstructie-als-validatie raamwerk voor betrouwbare intelligente documentverwerking

RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing

Samenvatting

Support