ChatPaper.aiChatPaper

Renaissance du patrimoine culturel : Une approche novatrice pour la restauration complète de documents historiques

Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration

July 7, 2025
Auteurs: Yuyi Zhang, Peirong Zhang, Zhenhua Yang, Pengyu Yan, Yongxin Shi, Pengwei Liu, Fengjun Guo, Lianwen Jin
cs.AI

Résumé

Les documents historiques constituent un patrimoine culturel inestimable, mais ont subi une dégradation significative au fil du temps en raison de déchirures, de l'érosion par l'eau et de l'oxydation. Les méthodes existantes de restauration de documents historiques (HDR) se concentrent principalement sur la restauration à modalité unique ou de taille limitée, ne répondant pas aux besoins pratiques. Pour combler cette lacune, nous présentons un ensemble de données HDR en page entière (FPHDR) et une nouvelle solution automatisée de HDR (AutoHDR). Plus précisément, FPHDR comprend 1 633 images réelles et 6 543 images synthétiques avec des localisations au niveau des caractères et des lignes, ainsi que des annotations de caractères pour différents degrés de dommage. AutoHDR imite les workflows de restauration des historiens à travers une approche en trois étapes : localisation des dommages assistée par OCR, prédiction de texte contextuel vision-langage, et restauration d'apparence autoregressive par patch. L'architecture modulaire d'AutoHDR permet une collaboration homme-machine fluide, autorisant une intervention et une optimisation flexibles à chaque étape de la restauration. Les expériences démontrent la performance remarquable d'AutoHDR en HDR. Lors du traitement de documents gravement endommagés, notre méthode améliore la précision de l'OCR de 46,83 % à 84,05 %, avec une amélioration supplémentaire à 94,25 % grâce à la collaboration homme-machine. Nous croyons que ce travail représente une avancée significative dans la restauration automatisée de documents historiques et contribue substantiellement à la préservation du patrimoine culturel. Le modèle et l'ensemble de données sont disponibles à l'adresse https://github.com/SCUT-DLVCLab/AutoHDR.
English
Historical documents represent an invaluable cultural heritage, yet have undergone significant degradation over time through tears, water erosion, and oxidation. Existing Historical Document Restoration (HDR) methods primarily focus on single modality or limited-size restoration, failing to meet practical needs. To fill this gap, we present a full-page HDR dataset (FPHDR) and a novel automated HDR solution (AutoHDR). Specifically, FPHDR comprises 1,633 real and 6,543 synthetic images with character-level and line-level locations, as well as character annotations in different damage grades. AutoHDR mimics historians' restoration workflows through a three-stage approach: OCR-assisted damage localization, vision-language context text prediction, and patch autoregressive appearance restoration. The modular architecture of AutoHDR enables seamless human-machine collaboration, allowing for flexible intervention and optimization at each restoration stage. Experiments demonstrate AutoHDR's remarkable performance in HDR. When processing severely damaged documents, our method improves OCR accuracy from 46.83\% to 84.05\%, with further enhancement to 94.25\% through human-machine collaboration. We believe this work represents a significant advancement in automated historical document restoration and contributes substantially to cultural heritage preservation. The model and dataset are available at https://github.com/SCUT-DLVCLab/AutoHDR.
PDF81July 8, 2025