ForCenNet: 文書画像補正のための前景中心ネットワーク
ForCenNet: Foreground-Centric Network for Document Image Rectification
July 26, 2025
著者: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI
要旨
ドキュメント画像の補正は、撮影された文書の幾何学的な歪みを除去し、テキスト認識を容易にすることを目的としています。しかし、既存の手法では、前景要素の重要性がしばしば見過ごされています。前景要素は、ドキュメント画像補正のための重要な幾何学的参照およびレイアウト情報を提供します。本論文では、ドキュメント画像の幾何学的歪みを除去するために、Foreground-Centric Network(ForCenNet)を提案します。具体的には、まず前景中心のラベル生成手法を提案し、歪みのない画像から詳細な前景要素を抽出します。次に、前景中心のマスクメカニズムを導入し、読み取り可能な領域と背景領域の区別を強化します。さらに、詳細な前景ラベルを活用してモデルが歪んだ幾何学的分布を理解するのを助けるために、曲率一貫性損失を設計します。大規模な実験により、ForCenNetがDocUNet、DIR300、WarpDoc、DocRealといった4つの実世界ベンチマークで新たな最先端の性能を達成することが示されています。定量的分析により、提案手法がテキスト行や表の境界線などのレイアウト要素を効果的に補正することが明らかになりました。さらなる比較のためのリソースはhttps://github.com/caipeng328/ForCenNetで提供されています。
English
Document image rectification aims to eliminate geometric deformation in
photographed documents to facilitate text recognition. However, existing
methods often neglect the significance of foreground elements, which provide
essential geometric references and layout information for document image
correction. In this paper, we introduce Foreground-Centric Network (ForCenNet)
to eliminate geometric distortions in document images. Specifically, we
initially propose a foreground-centric label generation method, which extracts
detailed foreground elements from an undistorted image. Then we introduce a
foreground-centric mask mechanism to enhance the distinction between readable
and background regions. Furthermore, we design a curvature consistency loss to
leverage the detailed foreground labels to help the model understand the
distorted geometric distribution. Extensive experiments demonstrate that
ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as
DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the
proposed method effectively undistorts layout elements, such as text lines and
table borders. The resources for further comparison are provided at
https://github.com/caipeng328/ForCenNet.