Prédiction de l'apparence originale de documents historiques endommagés
Predicting the Original Appearance of Damaged Historical Documents
December 16, 2024
Auteurs: Zhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin
cs.AI
Résumé
Les documents historiques renferment une richesse de trésors culturels mais souffrent de dommages sévères tels que des caractères manquants, des dommages au papier et une érosion de l'encre au fil du temps. Cependant, les méthodes existantes de traitement de documents se concentrent principalement sur la binarisation, l'amélioration, etc., en négligeant la réparation de ces dommages. À cette fin, nous présentons une nouvelle tâche, appelée Réparation de Documents Historiques (HDR), qui vise à prédire l'apparence originale des documents historiques endommagés. Pour combler cette lacune dans ce domaine, nous proposons un ensemble de données à grande échelle HDR28K et un réseau basé sur la diffusion, DiffHDR, pour la réparation de documents historiques. Plus précisément, HDR28K contient 28 552 paires d'images endommagées-réparées avec des annotations au niveau des caractères et des dégradations multi-styles. De plus, DiffHDR augmente le cadre de diffusion de base avec des informations sémantiques et spatiales ainsi qu'une perte perceptuelle de caractères minutieusement conçue pour la cohérence contextuelle et visuelle. Les résultats expérimentaux montrent que le DiffHDR proposé, entraîné à l'aide de HDR28K, surpasse significativement les approches existantes et présente des performances remarquables dans le traitement de vrais documents endommagés. Notamment, DiffHDR peut également être étendu à l'édition de documents et à la génération de blocs de texte, démontrant ainsi sa grande flexibilité et sa capacité de généralisation. Nous pensons que cette étude pourrait ouvrir une nouvelle voie dans le traitement de documents et contribuer à la transmission des cultures et civilisations inestimables. L'ensemble de données et le code sont disponibles sur https://github.com/yeungchenwa/HDR.
English
Historical documents encompass a wealth of cultural treasures but suffer from
severe damages including character missing, paper damage, and ink erosion over
time. However, existing document processing methods primarily focus on
binarization, enhancement, etc., neglecting the repair of these damages. To
this end, we present a new task, termed Historical Document Repair (HDR), which
aims to predict the original appearance of damaged historical documents. To
fill the gap in this field, we propose a large-scale dataset HDR28K and a
diffusion-based network DiffHDR for historical document repair. Specifically,
HDR28K contains 28,552 damaged-repaired image pairs with character-level
annotations and multi-style degradations. Moreover, DiffHDR augments the
vanilla diffusion framework with semantic and spatial information and a
meticulously designed character perceptual loss for contextual and visual
coherence. Experimental results demonstrate that the proposed DiffHDR trained
using HDR28K significantly surpasses existing approaches and exhibits
remarkable performance in handling real damaged documents. Notably, DiffHDR can
also be extended to document editing and text block generation, showcasing its
high flexibility and generalization capacity. We believe this study could
pioneer a new direction of document processing and contribute to the
inheritance of invaluable cultures and civilizations. The dataset and code is
available at https://github.com/yeungchenwa/HDR.