ChatPaper.aiChatPaper

Revitalización del Patrimonio Cultural: Un Enfoque Innovador para la Restauración Integral de Documentos Históricos

Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration

July 7, 2025
Autores: Yuyi Zhang, Peirong Zhang, Zhenhua Yang, Pengyu Yan, Yongxin Shi, Pengwei Liu, Fengjun Guo, Lianwen Jin
cs.AI

Resumen

Los documentos históricos representan un patrimonio cultural invaluable, pero han sufrido una degradación significativa a lo largo del tiempo debido a desgarros, erosión por agua y oxidación. Los métodos existentes de Restauración de Documentos Históricos (HDR, por sus siglas en inglés) se centran principalmente en la restauración de una sola modalidad o de tamaño limitado, lo que no satisface las necesidades prácticas. Para abordar esta brecha, presentamos un conjunto de datos de HDR de página completa (FPHDR) y una solución automatizada novedosa de HDR (AutoHDR). Específicamente, FPHDR comprende 1,633 imágenes reales y 6,543 imágenes sintéticas con ubicaciones a nivel de carácter y de línea, así como anotaciones de caracteres en diferentes grados de daño. AutoHDR imita los flujos de trabajo de restauración de los historiadores mediante un enfoque de tres etapas: localización de daños asistida por OCR, predicción de texto contextual mediante visión y lenguaje, y restauración autoregresiva de apariencia por parches. La arquitectura modular de AutoHDR permite una colaboración fluida entre humanos y máquinas, facilitando la intervención y optimización flexible en cada etapa de restauración. Los experimentos demuestran el rendimiento notable de AutoHDR en HDR. Al procesar documentos gravemente dañados, nuestro método mejora la precisión del OCR del 46.83\% al 84.05\%, con una mejora adicional al 94.25\% mediante la colaboración humano-máquina. Creemos que este trabajo representa un avance significativo en la restauración automatizada de documentos históricos y contribuye sustancialmente a la preservación del patrimonio cultural. El modelo y el conjunto de datos están disponibles en https://github.com/SCUT-DLVCLab/AutoHDR.
English
Historical documents represent an invaluable cultural heritage, yet have undergone significant degradation over time through tears, water erosion, and oxidation. Existing Historical Document Restoration (HDR) methods primarily focus on single modality or limited-size restoration, failing to meet practical needs. To fill this gap, we present a full-page HDR dataset (FPHDR) and a novel automated HDR solution (AutoHDR). Specifically, FPHDR comprises 1,633 real and 6,543 synthetic images with character-level and line-level locations, as well as character annotations in different damage grades. AutoHDR mimics historians' restoration workflows through a three-stage approach: OCR-assisted damage localization, vision-language context text prediction, and patch autoregressive appearance restoration. The modular architecture of AutoHDR enables seamless human-machine collaboration, allowing for flexible intervention and optimization at each restoration stage. Experiments demonstrate AutoHDR's remarkable performance in HDR. When processing severely damaged documents, our method improves OCR accuracy from 46.83\% to 84.05\%, with further enhancement to 94.25\% through human-machine collaboration. We believe this work represents a significant advancement in automated historical document restoration and contributes substantially to cultural heritage preservation. The model and dataset are available at https://github.com/SCUT-DLVCLab/AutoHDR.
PDF81July 8, 2025