ChatPaper.aiChatPaper

ForCenNet: 문서 이미지 보정을 위한 전경 중심 네트워크

ForCenNet: Foreground-Centric Network for Document Image Rectification

July 26, 2025
저자: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng
cs.AI

초록

문서 이미지 보정은 촬영된 문서의 기하학적 변형을 제거하여 텍스트 인식을 용이하게 하는 것을 목표로 합니다. 그러나 기존 방법들은 종종 전경 요소의 중요성을 간과하는데, 이 요소들은 문서 이미지 보정을 위한 필수적인 기하학적 참조 및 레이아웃 정보를 제공합니다. 본 논문에서는 문서 이미지의 기하학적 왜곡을 제거하기 위해 전경 중심 네트워크(ForCenNet)를 소개합니다. 구체적으로, 우리는 먼저 왜곡되지 않은 이미지에서 상세한 전경 요소를 추출하는 전경 중심 레이블 생성 방법을 제안합니다. 그런 다음 읽을 수 있는 영역과 배경 영역을 더 잘 구분하기 위해 전경 중심 마스크 메커니즘을 도입합니다. 더 나아가, 모델이 왜곡된 기하학적 분포를 이해하는 데 도움을 주기 위해 상세한 전경 레이블을 활용하는 곡률 일관성 손실을 설계합니다. 광범위한 실험을 통해 ForCenNet이 DocUNet, DIR300, WarpDoc, DocReal과 같은 네 가지 실제 벤치마크에서 새로운 최첨단 성능을 달성함을 입증했습니다. 정량적 분석은 제안된 방법이 텍스트 라인 및 테이블 경계와 같은 레이아웃 요소를 효과적으로 왜곡 제거함을 보여줍니다. 추가 비교를 위한 리소스는 https://github.com/caipeng328/ForCenNet에서 제공됩니다.
English
Document image rectification aims to eliminate geometric deformation in photographed documents to facilitate text recognition. However, existing methods often neglect the significance of foreground elements, which provide essential geometric references and layout information for document image correction. In this paper, we introduce Foreground-Centric Network (ForCenNet) to eliminate geometric distortions in document images. Specifically, we initially propose a foreground-centric label generation method, which extracts detailed foreground elements from an undistorted image. Then we introduce a foreground-centric mask mechanism to enhance the distinction between readable and background regions. Furthermore, we design a curvature consistency loss to leverage the detailed foreground labels to help the model understand the distorted geometric distribution. Extensive experiments demonstrate that ForCenNet achieves new state-of-the-art on four real-world benchmarks, such as DocUNet, DIR300, WarpDoc, and DocReal. Quantitative analysis shows that the proposed method effectively undistorts layout elements, such as text lines and table borders. The resources for further comparison are provided at https://github.com/caipeng328/ForCenNet.
PDF92July 29, 2025