Exploitation de la morphologie pour l'analyse métrologique des écritures historiques
Leveraging Morphology for Historical Script Metrological Analysis
June 8, 2026
Auteurs: Malamatenia Vlachou Efstathiou, Raphaël Baena, Dominique Stutzmann, Mathieu Aubry
cs.AI
Résumé
Les progrès de la reconnaissance de texte manuscrit ont permis la transcription à grande échelle de documents historiques, mais ils offrent encore un accès limité à des mesures visuelles interprétables pour la paléographie, l'étude des écritures anciennes. Dans cet article, notre principal apport est que l'analyse morphologique de l'écriture, en particulier la capacité d'apprendre des prototypes de caractères à partir de transcriptions au niveau de la ligne, permet de définir des mesures paléographiques évolutives, significatives et stables. Plus précisément, nous exploitons une architecture de détection basée sur les transformeurs, associée à un module de reconstruction de lignes fondé sur des prototypes, pour apprendre des caractères prototypiques ainsi que leur occurrence, leur déformation et leur positionnement.
Nos contributions sont doubles. Premièrement, nous introduisons une architecture profonde et une méthodologie d'apprentissage qui permet une modélisation efficace des caractères avec une supervision uniquement au niveau de la transcription de lignes, améliorant significativement la base de référence du *Learnable Typewriter* et permettant une prédiction précise des boîtes englobantes des caractères, libérant ainsi son potentiel pour les mesures paléographiques. Deuxièmement, nous présentons et démontrons la pertinence paléographique de mesures automatiques rendues possibles par notre architecture pour les caractères, les bigrammes et les espaces entre unités graphiques. Pour cette démonstration, nous étendons les annotations du codex Paris, BnF, fr. 2813, commandé à la fin du XIVe siècle par Charles V et copié par quatre mains, à 160 pages. Nous visualisons nos mesures sur ces pages, montrant comment elles nous permettent non seulement de différencier les profils graphiques, mais aussi de découvrir et d'analyser des variations subtiles. Cette étude de cas illustre l'évolutivité de notre approche et sa frugalité en termes de données d'apprentissage requises, puisqu'une seule colonne de texte suffit pour calculer nos mesures sur chacune des 160 pages.
Les données et le code sont disponibles publiquement à l'adresse : https://malamatenia.github.io/morphology4metrology-analysis.
English
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in particular the capacity to learn character prototypes from line-level transcriptions, enables the definition of scalable, meaningful, and stable paleographic measurements. More precisely, we leverage a transformer-based detection architecture together with a prototype-based line reconstruction module to learn prototypical characters and their occurrence, deformation, and positioning.
Our contributions are twofold. First, we introduce a deep architecture and learning methodology that enables efficient character modeling with only line-level transcription supervision, significantly improving over the Learnable Typewriter baseline and enabling accurate character bounding box prediction, unlocking its potential for paleographic measurements. Second, we introduce and demonstrate the paleographical relevance of automatic measurements enabled by our architecture for characters, bi-grams, and spaces between graphical units. For this demonstration, we extend the annotations of the codex Paris, BnF, fr. 2813, commissioned in the late fourteenth century by Charles V and copied by four hands, to 160 pages. We visualize our measurements over these pages, showing how they enable us not only to differentiate graphical profiles, but also to discover and analyze subtle variations. This case study outlines the scalability of our approach and its frugality in terms of required training data, since a single column of text is sufficient to compute our measurements on each of the 160 pages.
Data and code are publicly available at: https://malamatenia.github.io/morphology4metrology-analysis.