Прогнозирование первоначального внешнего вида поврежденных исторических документов.
Predicting the Original Appearance of Damaged Historical Documents
December 16, 2024
Авторы: Zhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin
cs.AI
Аннотация
Исторические документы включают в себя богатство культурных сокровищ, но страдают от серьезных повреждений, таких как отсутствие символов, повреждение бумаги и разрушение чернил со временем. Однако существующие методы обработки документов в основном сосредотачиваются на бинаризации, улучшении и т. д., пренебрегая восстановлением этих повреждений. Для решения этой проблемы мы представляем новую задачу, названную Восстановление Исторических Документов (HDR), которая направлена на предсказание первоначального вида поврежденных исторических документов. Для заполнения пробела в этой области мы предлагаем крупномасштабный набор данных HDR28K и сеть на основе диффузии DiffHDR для восстановления исторических документов. В частности, HDR28K содержит 28 552 пары изображений "поврежденный-восстановленный" с аннотациями на уровне символов и множественными стилями деградации. Более того, DiffHDR дополняет базовую структуру диффузии семантической и пространственной информацией, а также тщательно разработанной потерей восприятия символов для контекстной и визуальной согласованности. Экспериментальные результаты показывают, что предложенный DiffHDR, обученный с использованием HDR28K, значительно превосходит существующие подходы и проявляет выдающуюся производительность в обработке реальных поврежденных документов. Особенно стоит отметить, что DiffHDR также может быть расширен до редактирования документов и генерации текстовых блоков, демонстрируя его высокую гибкость и обобщающую способность. Мы считаем, что данное исследование может заложить новое направление обработки документов и способствовать сохранению бесценных культур и цивилизаций. Набор данных и код доступны по ссылке https://github.com/yeungchenwa/HDR.
English
Historical documents encompass a wealth of cultural treasures but suffer from
severe damages including character missing, paper damage, and ink erosion over
time. However, existing document processing methods primarily focus on
binarization, enhancement, etc., neglecting the repair of these damages. To
this end, we present a new task, termed Historical Document Repair (HDR), which
aims to predict the original appearance of damaged historical documents. To
fill the gap in this field, we propose a large-scale dataset HDR28K and a
diffusion-based network DiffHDR for historical document repair. Specifically,
HDR28K contains 28,552 damaged-repaired image pairs with character-level
annotations and multi-style degradations. Moreover, DiffHDR augments the
vanilla diffusion framework with semantic and spatial information and a
meticulously designed character perceptual loss for contextual and visual
coherence. Experimental results demonstrate that the proposed DiffHDR trained
using HDR28K significantly surpasses existing approaches and exhibits
remarkable performance in handling real damaged documents. Notably, DiffHDR can
also be extended to document editing and text block generation, showcasing its
high flexibility and generalization capacity. We believe this study could
pioneer a new direction of document processing and contribute to the
inheritance of invaluable cultures and civilizations. The dataset and code is
available at https://github.com/yeungchenwa/HDR.Summary
AI-Generated Summary