ForCenNet: Rede Centrada no Primeiro Plano para Retificação de Imagens de Documentos

Resumo

A retificação de imagens de documentos visa eliminar deformações geométricas em documentos fotografados para facilitar o reconhecimento de texto. No entanto, os métodos existentes frequentemente negligenciam a importância dos elementos em primeiro plano, que fornecem referências geométricas essenciais e informações de layout para a correção da imagem do documento. Neste artigo, apresentamos a Rede Centrada no Primeiro Plano (ForCenNet) para eliminar distorções geométricas em imagens de documentos. Especificamente, propomos inicialmente um método de geração de rótulos centrado no primeiro plano, que extrai elementos detalhados do primeiro plano de uma imagem não distorcida. Em seguida, introduzimos um mecanismo de máscara centrado no primeiro plano para melhorar a distinção entre regiões legíveis e o fundo. Além disso, projetamos uma função de perda de consistência de curvatura para aproveitar os rótulos detalhados do primeiro plano e ajudar o modelo a compreender a distribuição geométrica distorcida. Experimentos extensivos demonstram que o ForCenNet alcança novos estados da arte em quatro benchmarks do mundo real, como DocUNet, DIR300, WarpDoc e DocReal. A análise quantitativa mostra que o método proposto efetivamente corrige elementos de layout, como linhas de texto e bordas de tabelas. Os recursos para comparações adicionais são fornecidos em https://github.com/caipeng328/ForCenNet.

English

Document image rectification aims to eliminate geometric deformation in photographed documents to facilitate text recognition. However, existing methods often neglect the significance of foreground elements, which provide essential geometric references and layout information for document image correction. In this paper, we introduce Foreground-Centric Network (ForCenNet) to eliminate geometric distortions in document images. Specifically, we initially propose a foreground-centric label generation method, which extracts detailed foreground elements from an undistorted image. Then we introduce a foreground-centric mask mechanism to enhance the distinction between readable and background regions. Furthermore, we design a curvature consistency loss to leverage the detailed foreground labels to help the model understand the distorted geometric distribution. Extensive experiments demonstrate that ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the proposed method effectively undistorts layout elements, such as text lines and table borders. The resources for further comparison are provided at https://github.com/caipeng328/ForCenNet.

ForCenNet: Rede Centrada no Primeiro Plano para Retificação de Imagens de Documentos

ForCenNet: Foreground-Centric Network for Document Image Rectification

Resumo

Support