ForCenNet: Rede Centrada no Primeiro Plano para Retificação de Imagens de Documentos
ForCenNet: Foreground-Centric Network for Document Image Rectification
July 26, 2025
Autores: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI
Resumo
A retificação de imagens de documentos visa eliminar deformações geométricas em documentos fotografados para facilitar o reconhecimento de texto. No entanto, os métodos existentes frequentemente negligenciam a importância dos elementos em primeiro plano, que fornecem referências geométricas essenciais e informações de layout para a correção da imagem do documento. Neste artigo, apresentamos a Rede Centrada no Primeiro Plano (ForCenNet) para eliminar distorções geométricas em imagens de documentos. Especificamente, propomos inicialmente um método de geração de rótulos centrado no primeiro plano, que extrai elementos detalhados do primeiro plano de uma imagem não distorcida. Em seguida, introduzimos um mecanismo de máscara centrado no primeiro plano para melhorar a distinção entre regiões legíveis e o fundo. Além disso, projetamos uma função de perda de consistência de curvatura para aproveitar os rótulos detalhados do primeiro plano e ajudar o modelo a compreender a distribuição geométrica distorcida. Experimentos extensivos demonstram que o ForCenNet alcança novos estados da arte em quatro benchmarks do mundo real, como DocUNet, DIR300, WarpDoc e DocReal. A análise quantitativa mostra que o método proposto efetivamente corrige elementos de layout, como linhas de texto e bordas de tabelas. Os recursos para comparações adicionais são fornecidos em https://github.com/caipeng328/ForCenNet.
English
Document image rectification aims to eliminate geometric deformation in
photographed documents to facilitate text recognition. However, existing
methods often neglect the significance of foreground elements, which provide
essential geometric references and layout information for document image
correction. In this paper, we introduce Foreground-Centric Network (ForCenNet)
to eliminate geometric distortions in document images. Specifically, we
initially propose a foreground-centric label generation method, which extracts
detailed foreground elements from an undistorted image. Then we introduce a
foreground-centric mask mechanism to enhance the distinction between readable
and background regions. Furthermore, we design a curvature consistency loss to
leverage the detailed foreground labels to help the model understand the
distorted geometric distribution. Extensive experiments demonstrate that
ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as
DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the
proposed method effectively undistorts layout elements, such as text lines and
table borders. The resources for further comparison are provided at
https://github.com/caipeng328/ForCenNet.