ChatPaper.aiChatPaper

Morfologie benutten voor metrologische analyse van historische schriften

Leveraging Morphology for Historical Script Metrological Analysis

June 8, 2026
Auteurs: Malamatenia Vlachou Efstathiou, Raphaël Baena, Dominique Stutzmann, Mathieu Aubry
cs.AI

Samenvatting

Vooruitgang in handgeschreven tekstherkenning heeft grootschalige transcriptie van historische documenten mogelijk gemaakt, maar biedt nog steeds beperkte toegang tot interpreteerbare visuele metingen voor paleografie, de studie van historische schriften. In dit artikel is ons belangrijkste inzicht dat morfologische schriftanalyse, met name het vermogen om karakterprototypen te leren uit transcripties op lijnniveau, de definitie mogelijk maakt van schaalbare, betekenisvolle en stabiele paleografische metingen. Preciezer: we maken gebruik van een transformer-gebaseerde detectiearchitectuur samen met een prototype-gebaseerde lijnreconstructiemodule om prototypische karakters en hun voorkomen, vervorming en positionering te leren. Onze bijdragen zijn tweeledig. Ten eerste introduceren we een diepe architectuur en leermethodologie die efficiënte karaktermodellering mogelijk maakt met alleen toezicht op lijnniveau, wat een aanzienlijke verbetering betekent ten opzichte van de Leerbare Typemachine-baseline en het nauwkeurig voorspellen van begrenzingskaders voor karakters mogelijk maakt, waardoor het potentieel voor paleografische metingen wordt ontsloten. Ten tweede introduceren en demonstreren we de paleografische relevantie van automatische metingen die door onze architectuur mogelijk worden gemaakt voor karakters, bigrammen en spaties tussen grafische eenheden. Voor deze demonstratie breiden we de annotaties van de codex Paris, BnF, fr. 2813, besteld eind veertiende eeuw door Karel V en gekopieerd door vier handen, uit tot 160 pagina's. We visualiseren onze metingen over deze pagina's en tonen aan hoe ze ons niet alleen in staat stellen om grafische profielen te onderscheiden, maar ook om subtiele variaties te ontdekken en te analyseren. Deze casestudy illustreert de schaalbaarheid van onze aanpak en de zuinigheid ervan in termen van benodigde trainingsdata, aangezien een enkele kolom tekst voldoende is om onze metingen op elk van de 160 pagina's uit te voeren. Data en code zijn openbaar beschikbaar op: https://malamatenia.github.io/morphology4metrology-analysis.
English
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in particular the capacity to learn character prototypes from line-level transcriptions, enables the definition of scalable, meaningful, and stable paleographic measurements. More precisely, we leverage a transformer-based detection architecture together with a prototype-based line reconstruction module to learn prototypical characters and their occurrence, deformation, and positioning. Our contributions are twofold. First, we introduce a deep architecture and learning methodology that enables efficient character modeling with only line-level transcription supervision, significantly improving over the Learnable Typewriter baseline and enabling accurate character bounding box prediction, unlocking its potential for paleographic measurements. Second, we introduce and demonstrate the paleographical relevance of automatic measurements enabled by our architecture for characters, bi-grams, and spaces between graphical units. For this demonstration, we extend the annotations of the codex Paris, BnF, fr. 2813, commissioned in the late fourteenth century by Charles V and copied by four hands, to 160 pages. We visualize our measurements over these pages, showing how they enable us not only to differentiate graphical profiles, but also to discover and analyze subtle variations. This case study outlines the scalability of our approach and its frugality in terms of required training data, since a single column of text is sufficient to compute our measurements on each of the 160 pages. Data and code are publicly available at: https://malamatenia.github.io/morphology4metrology-analysis.