Prediciendo la Apariencia Original de Documentos Históricos Dañados
Predicting the Original Appearance of Damaged Historical Documents
December 16, 2024
Autores: Zhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin
cs.AI
Resumen
Los documentos históricos abarcan una riqueza de tesoros culturales pero sufren graves daños que incluyen caracteres faltantes, daños en el papel y erosión de la tinta con el tiempo. Sin embargo, los métodos existentes de procesamiento de documentos se centran principalmente en la binarización, mejora, etc., descuidando la reparación de estos daños. Con este fin, presentamos una nueva tarea, denominada Reparación de Documentos Históricos (HDR), que tiene como objetivo predecir la apariencia original de documentos históricos dañados. Para llenar el vacío en este campo, proponemos un conjunto de datos a gran escala HDR28K y una red basada en difusión, DiffHDR, para la reparación de documentos históricos. Específicamente, HDR28K contiene 28,552 pares de imágenes dañadas-reparadas con anotaciones a nivel de caracteres y degradaciones de múltiples estilos. Además, DiffHDR aumenta el marco de difusión básico con información semántica y espacial y una pérdida perceptual de caracteres meticulosamente diseñada para coherencia contextual y visual. Los resultados experimentales demuestran que el propuesto DiffHDR, entrenado utilizando HDR28K, supera significativamente a los enfoques existentes y muestra un rendimiento notable en el manejo de documentos dañados reales. Es importante destacar que DiffHDR también puede ser extendido a la edición de documentos y generación de bloques de texto, mostrando su alta flexibilidad y capacidad de generalización. Creemos que este estudio podría marcar una nueva dirección en el procesamiento de documentos y contribuir a la herencia de culturas y civilizaciones invaluables. El conjunto de datos y el código están disponibles en https://github.com/yeungchenwa/HDR.
English
Historical documents encompass a wealth of cultural treasures but suffer from
severe damages including character missing, paper damage, and ink erosion over
time. However, existing document processing methods primarily focus on
binarization, enhancement, etc., neglecting the repair of these damages. To
this end, we present a new task, termed Historical Document Repair (HDR), which
aims to predict the original appearance of damaged historical documents. To
fill the gap in this field, we propose a large-scale dataset HDR28K and a
diffusion-based network DiffHDR for historical document repair. Specifically,
HDR28K contains 28,552 damaged-repaired image pairs with character-level
annotations and multi-style degradations. Moreover, DiffHDR augments the
vanilla diffusion framework with semantic and spatial information and a
meticulously designed character perceptual loss for contextual and visual
coherence. Experimental results demonstrate that the proposed DiffHDR trained
using HDR28K significantly surpasses existing approaches and exhibits
remarkable performance in handling real damaged documents. Notably, DiffHDR can
also be extended to document editing and text block generation, showcasing its
high flexibility and generalization capacity. We believe this study could
pioneer a new direction of document processing and contribute to the
inheritance of invaluable cultures and civilizations. The dataset and code is
available at https://github.com/yeungchenwa/HDR.Summary
AI-Generated Summary