ForCenNet: Foreground-zentriertes Netzwerk zur Dokumentbildbegradigung
ForCenNet: Foreground-Centric Network for Document Image Rectification
July 26, 2025
papers.authors: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI
papers.abstract
Die Rektifizierung von Dokumentbildern zielt darauf ab, geometrische Verzerrungen in fotografierten Dokumenten zu beseitigen, um die Texterkennung zu erleichtern. Bisherige Methoden vernachlässigen jedoch oft die Bedeutung von Vordergrundelementen, die wesentliche geometrische Referenzen und Layoutinformationen für die Korrektur von Dokumentbildern liefern. In diesem Artikel stellen wir das Foreground-Centric Network (ForCenNet) vor, um geometrische Verzerrungen in Dokumentbildern zu beseitigen. Konkret schlagen wir zunächst eine vordergrundzentrierte Label-Generierungsmethode vor, die detaillierte Vordergrundelemente aus einem unverzerrten Bild extrahiert. Anschließend führen wir einen vordergrundzentrierten Maskenmechanismus ein, um die Unterscheidung zwischen lesbaren Regionen und dem Hintergrund zu verbessern. Darüber hinaus entwerfen wir einen Krümmungskonsistenzverlust, um die detaillierten Vordergrundlabels zu nutzen und dem Modell dabei zu helfen, die verzerrte geometrische Verteilung zu verstehen. Umfangreiche Experimente zeigen, dass ForCenNet auf vier realen Benchmarks wie DocUNet, DIR300, WarpDoc und DocReal neue Bestwerte erreicht. Quantitative Analysen belegen, dass die vorgeschlagene Methode Layoutelemente wie Textzeilen und Tabellenränder effektiv entzerrt. Die Ressourcen für weitere Vergleiche sind unter https://github.com/caipeng328/ForCenNet verfügbar.
English
Document image rectification aims to eliminate geometric deformation in
photographed documents to facilitate text recognition. However, existing
methods often neglect the significance of foreground elements, which provide
essential geometric references and layout information for document image
correction. In this paper, we introduce Foreground-Centric Network (ForCenNet)
to eliminate geometric distortions in document images. Specifically, we
initially propose a foreground-centric label generation method, which extracts
detailed foreground elements from an undistorted image. Then we introduce a
foreground-centric mask mechanism to enhance the distinction between readable
and background regions. Furthermore, we design a curvature consistency loss to
leverage the detailed foreground labels to help the model understand the
distorted geometric distribution. Extensive experiments demonstrate that
ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as
DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the
proposed method effectively undistorts layout elements, such as text lines and
table borders. The resources for further comparison are provided at
https://github.com/caipeng328/ForCenNet.