ForCenNet: Red Centrada en el Primer Plano para la Rectificación de Imágenes de Documentos

Resumen

La rectificación de imágenes de documentos tiene como objetivo eliminar las deformaciones geométricas en documentos fotografiados para facilitar el reconocimiento de texto. Sin embargo, los métodos existentes a menudo pasan por alto la importancia de los elementos en primer plano, los cuales proporcionan referencias geométricas esenciales e información de diseño para la corrección de imágenes de documentos. En este artículo, presentamos la Red Centrada en el Primer Plano (ForCenNet) para eliminar las distorsiones geométricas en imágenes de documentos. Específicamente, proponemos inicialmente un método de generación de etiquetas centrado en el primer plano, el cual extrae elementos detallados del primer plano de una imagen sin distorsión. Luego, introducimos un mecanismo de máscara centrado en el primer plano para mejorar la distinción entre las regiones legibles y el fondo. Además, diseñamos una función de pérdida de consistencia de curvatura para aprovechar las etiquetas detalladas del primer plano y ayudar al modelo a comprender la distribución geométrica distorsionada. Experimentos extensos demuestran que ForCenNet alcanza un nuevo estado del arte en cuatro puntos de referencia del mundo real, como DocUNet, DIR300, WarpDoc y DocReal. El análisis cuantitativo muestra que el método propuesto efectivamente corrige elementos de diseño, como líneas de texto y bordes de tablas. Los recursos para comparaciones adicionales se proporcionan en https://github.com/caipeng328/ForCenNet.

English

Document image rectification aims to eliminate geometric deformation in photographed documents to facilitate text recognition. However, existing methods often neglect the significance of foreground elements, which provide essential geometric references and layout information for document image correction. In this paper, we introduce Foreground-Centric Network (ForCenNet) to eliminate geometric distortions in document images. Specifically, we initially propose a foreground-centric label generation method, which extracts detailed foreground elements from an undistorted image. Then we introduce a foreground-centric mask mechanism to enhance the distinction between readable and background regions. Furthermore, we design a curvature consistency loss to leverage the detailed foreground labels to help the model understand the distorted geometric distribution. Extensive experiments demonstrate that ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the proposed method effectively undistorts layout elements, such as text lines and table borders. The resources for further comparison are provided at https://github.com/caipeng328/ForCenNet.

ForCenNet: Red Centrada en el Primer Plano para la Rectificación de Imágenes de Documentos

ForCenNet: Foreground-Centric Network for Document Image Rectification

Resumen

Support