ChatPaper.aiChatPaper

Aproveitando a Morfologia para Análise Metrológica de Escritas Históricas

Leveraging Morphology for Historical Script Metrological Analysis

June 8, 2026
Autores: Malamatenia Vlachou Efstathiou, Raphaël Baena, Dominique Stutzmann, Mathieu Aubry
cs.AI

Resumo

Os avanços no reconhecimento de texto manuscrito têm permitido a transcrição em larga escala de documentos históricos, mas ainda oferecem acesso limitado a medidas visuais interpretáveis para a paleografia, o estudo de escritas históricas. Neste artigo, nossa principal percepção é que a análise morfológica da escrita, em particular a capacidade de aprender protótipos de caracteres a partir de transcrições em nível de linha, permite a definição de medidas paleográficas escaláveis, significativas e estáveis. Mais precisamente, utilizamos uma arquitetura de detecção baseada em transformer juntamente com um módulo de reconstrução de linha baseado em protótipos para aprender caracteres prototípicos e sua ocorrência, deformação e posicionamento. Nossas contribuições são duplas. Primeiro, introduzimos uma arquitetura profunda e metodologia de aprendizado que possibilita a modelagem eficiente de caracteres com apenas supervisão de transcrição em nível de linha, melhorando significativamente em relação à linha de base Learnable Typewriter e permitindo a predição precisa de caixas delimitadoras de caracteres, desbloqueando seu potencial para medidas paleográficas. Segundo, introduzimos e demonstramos a relevância paleográfica de medidas automáticas possibilitadas por nossa arquitetura para caracteres, bigramas e espaços entre unidades gráficas. Para esta demonstração, estendemos as anotações do códice Paris, BnF, fr. 2813, encomendado no final do século XIV por Carlos V e copiado por quatro escribas, para 160 páginas. Visualizamos nossas medidas nessas páginas, mostrando como elas nos permitem não apenas diferenciar perfis gráficos, mas também descobrir e analisar variações sutis. Este estudo de caso delineia a escalabilidade de nossa abordagem e sua frugalidade em termos de dados de treinamento necessários, já que uma única coluna de texto é suficiente para calcular nossas medidas em cada uma das 160 páginas. Os dados e o código estão disponíveis publicamente em: https://malamatenia.github.io/morphology4metrology-analysis.
English
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in particular the capacity to learn character prototypes from line-level transcriptions, enables the definition of scalable, meaningful, and stable paleographic measurements. More precisely, we leverage a transformer-based detection architecture together with a prototype-based line reconstruction module to learn prototypical characters and their occurrence, deformation, and positioning. Our contributions are twofold. First, we introduce a deep architecture and learning methodology that enables efficient character modeling with only line-level transcription supervision, significantly improving over the Learnable Typewriter baseline and enabling accurate character bounding box prediction, unlocking its potential for paleographic measurements. Second, we introduce and demonstrate the paleographical relevance of automatic measurements enabled by our architecture for characters, bi-grams, and spaces between graphical units. For this demonstration, we extend the annotations of the codex Paris, BnF, fr. 2813, commissioned in the late fourteenth century by Charles V and copied by four hands, to 160 pages. We visualize our measurements over these pages, showing how they enable us not only to differentiate graphical profiles, but also to discover and analyze subtle variations. This case study outlines the scalability of our approach and its frugality in terms of required training data, since a single column of text is sufficient to compute our measurements on each of the 160 pages. Data and code are publicly available at: https://malamatenia.github.io/morphology4metrology-analysis.