Aprovechando la morfología para el análisis metrológico de escrituras históricas
Leveraging Morphology for Historical Script Metrological Analysis
June 8, 2026
Autores: Malamatenia Vlachou Efstathiou, Raphaël Baena, Dominique Stutzmann, Mathieu Aubry
cs.AI
Resumen
Los avances en el reconocimiento de texto manuscrito han permitido la transcripción a gran escala de documentos históricos, pero aún ofrecen un acceso limitado a mediciones visuales interpretables para la paleografía, el estudio de las escrituras históricas. En este artículo, nuestra principal contribución es que el análisis morfológico de la escritura, en particular la capacidad de aprender prototipos de caracteres a partir de transcripciones a nivel de línea, permite definir mediciones paleográficas escalables, significativas y estables. Más precisamente, aprovechamos una arquitectura de detección basada en transformadores junto con un módulo de reconstrucción de línea basado en prototipos para aprender caracteres prototípicos y su ocurrencia, deformación y posicionamiento.
Nuestras contribuciones son dobles. En primer lugar, presentamos una arquitectura profunda y una metodología de aprendizaje que permite un modelado eficiente de caracteres con solo supervisión de transcripción a nivel de línea, mejorando significativamente la línea base de Learnable Typewriter y permitiendo la predicción precisa de cuadros delimitadores de caracteres, desbloqueando su potencial para mediciones paleográficas. En segundo lugar, introducimos y demostramos la relevancia paleográfica de las mediciones automáticas habilitadas por nuestra arquitectura para caracteres, bigramas y espacios entre unidades gráficas. Para esta demostración, extendemos las anotaciones del códice París, BnF, fr. 2813, encargado a finales del siglo XIV por Carlos V y copiado por cuatro manos, a 160 páginas. Visualizamos nuestras mediciones en estas páginas, mostrando cómo nos permiten no solo diferenciar perfiles gráficos, sino también descubrir y analizar variaciones sutiles. Este estudio de caso demuestra la escalabilidad de nuestro enfoque y su frugalidad en términos de datos de entrenamiento requeridos, ya que una sola columna de texto es suficiente para calcular nuestras mediciones en cada una de las 160 páginas.
Los datos y el código están disponibles públicamente en: https://malamatenia.github.io/morphology4metrology-analysis.
English
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in particular the capacity to learn character prototypes from line-level transcriptions, enables the definition of scalable, meaningful, and stable paleographic measurements. More precisely, we leverage a transformer-based detection architecture together with a prototype-based line reconstruction module to learn prototypical characters and their occurrence, deformation, and positioning.
Our contributions are twofold. First, we introduce a deep architecture and learning methodology that enables efficient character modeling with only line-level transcription supervision, significantly improving over the Learnable Typewriter baseline and enabling accurate character bounding box prediction, unlocking its potential for paleographic measurements. Second, we introduce and demonstrate the paleographical relevance of automatic measurements enabled by our architecture for characters, bi-grams, and spaces between graphical units. For this demonstration, we extend the annotations of the codex Paris, BnF, fr. 2813, commissioned in the late fourteenth century by Charles V and copied by four hands, to 160 pages. We visualize our measurements over these pages, showing how they enable us not only to differentiate graphical profiles, but also to discover and analyze subtle variations. This case study outlines the scalability of our approach and its frugality in terms of required training data, since a single column of text is sufficient to compute our measurements on each of the 160 pages.
Data and code are publicly available at: https://malamatenia.github.io/morphology4metrology-analysis.