RaV-IDP: Uma Estrutura de Reconstrução como Validação para Processamento Inteligente Fidedigno de Documentos
RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing
April 26, 2026
Autores: Pritesh Jha
cs.AI
Resumo
Os pipelines de processamento inteligente de documentos extraem entidades estruturadas (tabelas, imagens e texto) de documentos para uso em sistemas downstream, como bases de conhecimento, geração aumentada por recuperação e análises. Uma limitação persistente dos pipelines existentes é que a saída da extração é produzida sem qualquer mecanismo intrínseco para verificar se representa fielmente a fonte. As pontuações de confiança internas do modelo medem a certeza da inferência, não a correspondência com o documento, e os erros de extração passam silenciosamente para os consumidores downstream.
Apresentamos o Reconstruction as Validation (RaV-IDP), um pipeline de processamento de documentos que introduz a reconstrução como um componente arquitetônico de primeira classe. Após a extração de cada entidade, um reconstruidor dedicado renderiza a representação extraída de volta para uma forma comparável à região original do documento, e um comparador pontua a fidelidade entre a reconstrução e o recorte da fonte não modificado. Esta pontuação de fidelidade é um sinal de qualidade fundamentado e livre de rótulos. Quando a fidelidade cai abaixo de um limite por tipo de entidade, um fallback estruturado do GPT-4.1 Vision é acionado e o ciclo de validação se repete. Implantamos uma restrição de *bootstrap*: o comparador sempre ancora a avaliação na região original do documento, nunca na extração, impedindo que a validação se torne circular.
Propomos ainda uma estrutura de avaliação por estágio, emparelhando cada componente do pipeline com um benchmark apropriado. O pipeline de código está publicamente disponível em https://github.com/pritesh-2711/RaV-IDP para experimentação e uso.
English
Intelligent document processing pipelines extract structured entities (tables, images, and text) from documents for use in downstream systems such as knowledge bases, retrieval-augmented generation, and analytics. A persistent limitation of existing pipelines is that extraction output is produced without any intrinsic mechanism to verify whether it faithfully represents the source. Model-internal confidence scores measure inference certainty, not correspondence to the document, and extraction errors pass silently into downstream consumers.
We present Reconstruction as Validation (RaV-IDP), a document processing pipeline that introduces reconstruction as a first-class architectural component. After each entity is extracted, a dedicated reconstructor renders the extracted representation back into a form comparable to the original document region, and a comparator scores fidelity between the reconstruction and the unmodified source crop. This fidelity score is a grounded, label-free quality signal. When fidelity falls below a per-entity-type threshold, a structured GPT-4.1 vision fallback is triggered and the validation loop repeats. We enforce a bootstrap constraint: the comparator always anchors against the original document region, never against the extraction, preventing the validation from becoming circular.
We further propose a per-stage evaluation framework pairing each pipeline component with an appropriate benchmark. The code pipeline is publicly available at https://github.com/pritesh-2711/RaV-IDP for experimentation and use.