ForCenNet : Réseau centré sur l'avant-plan pour la rectification d'images de documents
ForCenNet: Foreground-Centric Network for Document Image Rectification
July 26, 2025
papers.authors: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI
papers.abstract
La rectification d'images de documents vise à éliminer les déformations géométriques dans les documents photographiés afin de faciliter la reconnaissance de texte. Cependant, les méthodes existantes négligent souvent l'importance des éléments de premier plan, qui fournissent des références géométriques essentielles et des informations de mise en page pour la correction des images de documents. Dans cet article, nous présentons le réseau centré sur le premier plan (ForCenNet) pour éliminer les distorsions géométriques dans les images de documents. Plus précisément, nous proposons d'abord une méthode de génération d'étiquettes centrée sur le premier plan, qui extrait des éléments détaillés de premier plan à partir d'une image non déformée. Ensuite, nous introduisons un mécanisme de masque centré sur le premier plan pour améliorer la distinction entre les régions lisibles et les régions d'arrière-plan. De plus, nous concevons une fonction de perte de cohérence de courbure pour exploiter les étiquettes détaillées du premier plan afin d'aider le modèle à comprendre la distribution géométrique déformée. Des expériences approfondies démontrent que ForCenNet atteint de nouveaux records sur quatre benchmarks du monde réel, tels que DocUNet, DIR300, WarpDoc et DocReal. L'analyse quantitative montre que la méthode proposée corrige efficacement les éléments de mise en page, tels que les lignes de texte et les bordures de table. Les ressources pour des comparaisons supplémentaires sont fournies à l'adresse https://github.com/caipeng328/ForCenNet.
English
Document image rectification aims to eliminate geometric deformation in
photographed documents to facilitate text recognition. However, existing
methods often neglect the significance of foreground elements, which provide
essential geometric references and layout information for document image
correction. In this paper, we introduce Foreground-Centric Network (ForCenNet)
to eliminate geometric distortions in document images. Specifically, we
initially propose a foreground-centric label generation method, which extracts
detailed foreground elements from an undistorted image. Then we introduce a
foreground-centric mask mechanism to enhance the distinction between readable
and background regions. Furthermore, we design a curvature consistency loss to
leverage the detailed foreground labels to help the model understand the
distorted geometric distribution. Extensive experiments demonstrate that
ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as
DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the
proposed method effectively undistorts layout elements, such as text lines and
table borders. The resources for further comparison are provided at
https://github.com/caipeng328/ForCenNet.