ForCenNet: Red Centrada en el Primer Plano para la Rectificación de Imágenes de Documentos
ForCenNet: Foreground-Centric Network for Document Image Rectification
July 26, 2025
Autores: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI
Resumen
La rectificación de imágenes de documentos tiene como objetivo eliminar las deformaciones geométricas en documentos fotografiados para facilitar el reconocimiento de texto. Sin embargo, los métodos existentes a menudo pasan por alto la importancia de los elementos en primer plano, los cuales proporcionan referencias geométricas esenciales e información de diseño para la corrección de imágenes de documentos. En este artículo, presentamos la Red Centrada en el Primer Plano (ForCenNet) para eliminar las distorsiones geométricas en imágenes de documentos. Específicamente, proponemos inicialmente un método de generación de etiquetas centrado en el primer plano, el cual extrae elementos detallados del primer plano de una imagen sin distorsión. Luego, introducimos un mecanismo de máscara centrado en el primer plano para mejorar la distinción entre las regiones legibles y el fondo. Además, diseñamos una función de pérdida de consistencia de curvatura para aprovechar las etiquetas detalladas del primer plano y ayudar al modelo a comprender la distribución geométrica distorsionada. Experimentos extensos demuestran que ForCenNet alcanza un nuevo estado del arte en cuatro puntos de referencia del mundo real, como DocUNet, DIR300, WarpDoc y DocReal. El análisis cuantitativo muestra que el método propuesto efectivamente corrige elementos de diseño, como líneas de texto y bordes de tablas. Los recursos para comparaciones adicionales se proporcionan en https://github.com/caipeng328/ForCenNet.
English
Document image rectification aims to eliminate geometric deformation in
photographed documents to facilitate text recognition. However, existing
methods often neglect the significance of foreground elements, which provide
essential geometric references and layout information for document image
correction. In this paper, we introduce Foreground-Centric Network (ForCenNet)
to eliminate geometric distortions in document images. Specifically, we
initially propose a foreground-centric label generation method, which extracts
detailed foreground elements from an undistorted image. Then we introduce a
foreground-centric mask mechanism to enhance the distinction between readable
and background regions. Furthermore, we design a curvature consistency loss to
leverage the detailed foreground labels to help the model understand the
distorted geometric distribution. Extensive experiments demonstrate that
ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as
DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the
proposed method effectively undistorts layout elements, such as text lines and
table borders. The resources for further comparison are provided at
https://github.com/caipeng328/ForCenNet.