ChatPaper.aiChatPaper

ForCenNet: Voorgrond-Gecentreerd Netwerk voor Documentbeeldrectificatie

ForCenNet: Foreground-Centric Network for Document Image Rectification

July 26, 2025
Auteurs: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI

Samenvatting

Document image rectificatie heeft als doel geometrische vervormingen in gefotografeerde documenten te elimineren om tekstherkenning te vergemakkelijken. Bestaande methoden negeren echter vaak het belang van voorgrond elementen, die essentiële geometrische referenties en lay-outinformatie bieden voor documentbeeldcorrectie. In dit artikel introduceren we het Foreground-Centric Network (ForCenNet) om geometrische vervormingen in documentbeelden te elimineren. Specifiek stellen we eerst een voorgrond-centrische labelgeneratiemethode voor, die gedetailleerde voorgrond elementen uit een onvervormd beeld extraheert. Vervolgens introduceren we een voorgrond-centrisch maskermechanisme om het onderscheid tussen leesbare en achtergrondregio's te versterken. Bovendien ontwerpen we een krommingsconsistentieverlies om de gedetailleerde voorgrondlabels te benutten, zodat het model de vervormde geometrische verdeling beter kan begrijpen. Uitgebreide experimenten tonen aan dat ForCenNet nieuwe state-of-the-art resultaten behaalt op vier real-world benchmarks, zoals DocUNet, DIR300, WarpDoc en DocReal. Kwantitatieve analyse laat zien dat de voorgestelde methode lay-out elementen, zoals tekstregels en tabelranden, effectief onvervormt. De bronnen voor verdere vergelijking zijn beschikbaar op https://github.com/caipeng328/ForCenNet.
English
Document image rectification aims to eliminate geometric deformation in photographed documents to facilitate text recognition. However, existing methods often neglect the significance of foreground elements, which provide essential geometric references and layout information for document image correction. In this paper, we introduce Foreground-Centric Network (ForCenNet) to eliminate geometric distortions in document images. Specifically, we initially propose a foreground-centric label generation method, which extracts detailed foreground elements from an undistorted image. Then we introduce a foreground-centric mask mechanism to enhance the distinction between readable and background regions. Furthermore, we design a curvature consistency loss to leverage the detailed foreground labels to help the model understand the distorted geometric distribution. Extensive experiments demonstrate that ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the proposed method effectively undistorts layout elements, such as text lines and table borders. The resources for further comparison are provided at https://github.com/caipeng328/ForCenNet.
PDF112July 29, 2025