Nutzung der Morphologie für die metrologische Analyse historischer Schriften
Leveraging Morphology for Historical Script Metrological Analysis
June 8, 2026
Autoren: Malamatenia Vlachou Efstathiou, Raphaël Baena, Dominique Stutzmann, Mathieu Aubry
cs.AI
Zusammenfassung
Fortschritte in der Handschriftenerkennung haben die großflächige Transkription historischer Dokumente ermöglicht, bieten jedoch nach wie vor nur begrenzten Zugang zu interpretierbaren visuellen Messungen für die Paläographie, die Untersuchung historischer Schriften. In diesem Artikel liegt unsere zentrale Erkenntnis darin, dass die morphologische Schriftanalyse, insbesondere die Fähigkeit, Zeichenprototypen aus zeilenweisen Transkriptionen zu lernen, die Definition skalierbarer, aussagekräftiger und stabiler paläographischer Messungen ermöglicht. Genauer gesagt nutzen wir eine transformergestützte Erkennungsarchitektur zusammen mit einem prototypbasierten Zeilenrekonstruktionsmodul, um prototypische Zeichen sowie deren Vorkommen, Verformung und Positionierung zu lernen.
Unsere Beiträge sind zweifach. Erstens führen wir eine tiefe Architektur und Lernmethodik ein, die eine effiziente Zeichenmodellierung mit ausschließlich zeilenweiser Transkriptionsaufsicht ermöglicht, die das Learnable-Typewriter-Basismodell deutlich übertrifft und eine genaue Vorhersage von Begrenzungsrahmen für Zeichen ermöglicht, wodurch ihr Potenzial für paläographische Messungen erschlossen wird. Zweitens führen wir die paläographische Relevanz automatischer Messungen ein und demonstrieren sie, die durch unsere Architektur für Zeichen, Bigramme und Abstände zwischen grafischen Einheiten ermöglicht werden. Für diese Demonstration erweitern wir die Annotationen des Kodex Paris, BnF, fr. 2813, der im späten 14. Jahrhundert von Karl V. in Auftrag gegeben und von vier Händen kopiert wurde, auf 160 Seiten. Wir visualisieren unsere Messungen über diese Seiten und zeigen, wie sie es uns nicht nur ermöglichen, grafische Profile zu unterscheiden, sondern auch subtile Variationen zu entdecken und zu analysieren. Diese Fallstudie verdeutlicht die Skalierbarkeit unseres Ansatzes und seine Sparsamkeit hinsichtlich der erforderlichen Trainingsdaten, da eine einzelne Textspalte ausreicht, um unsere Messungen auf jeder der 160 Seiten zu berechnen.
Daten und Code sind öffentlich zugänglich unter: https://malamatenia.github.io/morphology4metrology-analysis.
English
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but still provide limited access to interpretable visual measurements for paleography, the study of historical scripts. In this paper, our main insight is that morphological script analysis, in particular the capacity to learn character prototypes from line-level transcriptions, enables the definition of scalable, meaningful, and stable paleographic measurements. More precisely, we leverage a transformer-based detection architecture together with a prototype-based line reconstruction module to learn prototypical characters and their occurrence, deformation, and positioning.
Our contributions are twofold. First, we introduce a deep architecture and learning methodology that enables efficient character modeling with only line-level transcription supervision, significantly improving over the Learnable Typewriter baseline and enabling accurate character bounding box prediction, unlocking its potential for paleographic measurements. Second, we introduce and demonstrate the paleographical relevance of automatic measurements enabled by our architecture for characters, bi-grams, and spaces between graphical units. For this demonstration, we extend the annotations of the codex Paris, BnF, fr. 2813, commissioned in the late fourteenth century by Charles V and copied by four hands, to 160 pages. We visualize our measurements over these pages, showing how they enable us not only to differentiate graphical profiles, but also to discover and analyze subtle variations. This case study outlines the scalability of our approach and its frugality in terms of required training data, since a single column of text is sufficient to compute our measurements on each of the 160 pages.
Data and code are publicly available at: https://malamatenia.github.io/morphology4metrology-analysis.