ChatPaper.aiChatPaper

Использование морфологии для метрологического анализа исторических письменностей

Leveraging Morphology for Historical Script Metrological Analysis

June 8, 2026
Авторы: Malamatenia Vlachou Efstathiou, Raphaël Baena, Dominique Stutzmann, Mathieu Aubry
cs.AI

Аннотация

Достижения в области распознавания рукописного текста позволили проводить крупномасштабную транскрипцию исторических документов, однако они по-прежнему предоставляют ограниченный доступ к интерпретируемым визуальным измерениям для палеографии — науки, изучающей исторические почерки. В данной работе наша основная идея заключается в том, что морфологический анализ письма, в частности способность изучать прототипы символов на основе транскрипций на уровне строк, позволяет определить масштабируемые, содержательные и стабильные палеографические измерения. Точнее, мы используем детекционную архитектуру на основе трансформера вместе с модулем реконструкции строк на основе прототипов для изучения прототипических символов, а также их встречаемости, деформации и позиционирования. Наш вклад состоит из двух частей. Во-первых, мы представляем глубокую архитектуру и методологию обучения, которые обеспечивают эффективное моделирование символов при наличии только транскрипций на уровне строк, что значительно превосходит базовый метод Learnable Typewriter и позволяет точно предсказывать ограничивающие рамки символов, раскрывая потенциал для палеографических измерений. Во-вторых, мы вводим и демонстрируем палеографическую значимость автоматических измерений, обеспечиваемых нашей архитектурой, для символов, биграмм и пробелов между графическими единицами. Для данной демонстрации мы расширяем аннотации кодекса Paris, BnF, fr. 2813, созданного в конце XIV века по заказу Карла V и переписанного четырьмя писцами, до 160 страниц. Мы визуализируем наши измерения на этих страницах, показывая, как они позволяют не только различать графические профили, но и обнаруживать и анализировать тонкие вариации. Данный пример из практики иллюстрирует масштабируемость нашего подхода и его экономичность в отношении требуемых обучающих данных, поскольку для вычисления измерений на каждой из 160 страниц достаточно одной колонки текста. Данные и код доступны по адресу: https://malamatenia.github.io/morphology4metrology-analysis.
English
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in particular the capacity to learn character prototypes from line-level transcriptions, enables the definition of scalable, meaningful, and stable paleographic measurements. More precisely, we leverage a transformer-based detection architecture together with a prototype-based line reconstruction module to learn prototypical characters and their occurrence, deformation, and positioning. Our contributions are twofold. First, we introduce a deep architecture and learning methodology that enables efficient character modeling with only line-level transcription supervision, significantly improving over the Learnable Typewriter baseline and enabling accurate character bounding box prediction, unlocking its potential for paleographic measurements. Second, we introduce and demonstrate the paleographical relevance of automatic measurements enabled by our architecture for characters, bi-grams, and spaces between graphical units. For this demonstration, we extend the annotations of the codex Paris, BnF, fr. 2813, commissioned in the late fourteenth century by Charles V and copied by four hands, to 160 pages. We visualize our measurements over these pages, showing how they enable us not only to differentiate graphical profiles, but also to discover and analyze subtle variations. This case study outlines the scalability of our approach and its frugality in terms of required training data, since a single column of text is sufficient to compute our measurements on each of the 160 pages. Data and code are publicly available at: https://malamatenia.github.io/morphology4metrology-analysis.