ForCenNet: Rete Centrata sul Primo Piano per la Rettificazione delle Immagini Documentali
ForCenNet: Foreground-Centric Network for Document Image Rectification
July 26, 2025
Autori: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI
Abstract
La rettifica delle immagini di documenti mira a eliminare le deformazioni geometriche nei documenti fotografati per facilitare il riconoscimento del testo. Tuttavia, i metodi esistenti spesso trascurano l'importanza degli elementi in primo piano, che forniscono riferimenti geometrici essenziali e informazioni sul layout per la correzione delle immagini dei documenti. In questo articolo, introduciamo la Foreground-Centric Network (ForCenNet) per eliminare le distorsioni geometriche nelle immagini dei documenti. Nello specifico, proponiamo inizialmente un metodo di generazione di etichette centrato sul primo piano, che estrae dettagliati elementi in primo piano da un'immagine non distorta. Successivamente, introduciamo un meccanismo di maschera centrato sul primo piano per migliorare la distinzione tra regioni leggibili e lo sfondo. Inoltre, progettiamo una funzione di perdita di consistenza della curvatura per sfruttare le etichette dettagliate del primo piano e aiutare il modello a comprendere la distribuzione geometrica distorta. Esperimenti estensivi dimostrano che ForCenNet raggiunge nuovi stati dell'arte su quattro benchmark del mondo reale, come DocUNet, DIR300, WarpDoc e DocReal. L'analisi quantitativa mostra che il metodo proposto corregge efficacemente gli elementi del layout, come le linee di testo e i bordi delle tabelle. Le risorse per ulteriori confronti sono fornite su https://github.com/caipeng328/ForCenNet.
English
Document image rectification aims to eliminate geometric deformation in
photographed documents to facilitate text recognition. However, existing
methods often neglect the significance of foreground elements, which provide
essential geometric references and layout information for document image
correction. In this paper, we introduce Foreground-Centric Network (ForCenNet)
to eliminate geometric distortions in document images. Specifically, we
initially propose a foreground-centric label generation method, which extracts
detailed foreground elements from an undistorted image. Then we introduce a
foreground-centric mask mechanism to enhance the distinction between readable
and background regions. Furthermore, we design a curvature consistency loss to
leverage the detailed foreground labels to help the model understand the
distorted geometric distribution. Extensive experiments demonstrate that
ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as
DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the
proposed method effectively undistorts layout elements, such as text lines and
table borders. The resources for further comparison are provided at
https://github.com/caipeng328/ForCenNet.