ChatPaper.aiChatPaper

ForCenNet: Сеть с фокусом на переднем плане для коррекции изображений документов

ForCenNet: Foreground-Centric Network for Document Image Rectification

July 26, 2025
Авторы: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI

Аннотация

Коррекция изображений документов направлена на устранение геометрических искажений в сфотографированных документах для облегчения распознавания текста. Однако существующие методы часто игнорируют важность элементов переднего плана, которые предоставляют ключевые геометрические ориентиры и информацию о структуре для коррекции изображений документов. В данной статье мы представляем Foreground-Centric Network (ForCenNet) для устранения геометрических искажений в изображениях документов. В частности, мы впервые предлагаем метод генерации меток, ориентированных на передний план, который извлекает детализированные элементы переднего плана из неискаженного изображения. Затем мы вводим механизм маски, ориентированной на передний план, чтобы усилить различие между читаемыми областями и фоном. Кроме того, мы разрабатываем функцию потерь на основе согласованности кривизны, чтобы использовать детализированные метки переднего плана для помощи модели в понимании искаженного геометрического распределения. Многочисленные эксперименты демонстрируют, что ForCenNet устанавливает новый рекорд на четырех реальных наборах данных, таких как DocUNet, DIR300, WarpDoc и DocReal. Количественный анализ показывает, что предложенный метод эффективно устраняет искажения элементов структуры, таких как строки текста и границы таблиц. Ресурсы для дальнейшего сравнения доступны по адресу https://github.com/caipeng328/ForCenNet.
English
Document image rectification aims to eliminate geometric deformation in photographed documents to facilitate text recognition. However, existing methods often neglect the significance of foreground elements, which provide essential geometric references and layout information for document image correction. In this paper, we introduce Foreground-Centric Network (ForCenNet) to eliminate geometric distortions in document images. Specifically, we initially propose a foreground-centric label generation method, which extracts detailed foreground elements from an undistorted image. Then we introduce a foreground-centric mask mechanism to enhance the distinction between readable and background regions. Furthermore, we design a curvature consistency loss to leverage the detailed foreground labels to help the model understand the distorted geometric distribution. Extensive experiments demonstrate that ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the proposed method effectively undistorts layout elements, such as text lines and table borders. The resources for further comparison are provided at https://github.com/caipeng328/ForCenNet.
PDF92July 29, 2025