GlotOCR Bench: OCR-Modelle kämpfen immer noch mit mehr als einer Handvoll Unicode-Schriften

Zusammenfassung

Die optische Zeichenerkennung (OCR) hat mit dem Aufkommen von Vision-Language-Modellen rasante Fortschritte gemacht, doch die Evaluierung konzentriert sich nach wie vor auf eine kleine Gruppe von Hoch- und Mittelressourcen-Schriften. Wir stellen GlotOCR Bench vor, einen umfassenden Benchmark, der die OCR-Generalisierung über 100+ Unicode-Schriften hinweg evaluiert. Unser Benchmark besteht aus sauberen und degradierten Bildvarianten, die aus echten mehrsprachigen Texten gerendert wurden. Die Bilder werden mit Schriftarten aus dem Google Fonts-Repository unter Verwendung von HarfBuzz für das Shaping und FreeType für die Rasterisierung gerendert, wobei sowohl LTR- als auch RTL-Schriften unterstützt werden. Stichproben der gerenderten Bilder wurden manuell überprüft, um die korrekte Darstellung über alle Schriften hinweg zu verifizieren. Wir evaluieren eine breite Palette von Open-Weight- und proprietären Vision-Language-Modellen und stellen fest, dass die meisten bei weniger als zehn Schriften gute Leistungen erbringen und selbst die leistungsstärksten Frontier-Modelle über dreißig Schriften hinaus nicht generalisieren können. Die Leistung korreliert weitgehend mit der Script-Level-Pretraining-Abdeckung, was darauf hindeutet, dass aktuelle OCR-Systeme ebenso stark auf Sprachmodell-Pretraining angewiesen sind wie auf visuelle Erkennung. Modelle, die mit unbekannten Schriften konfrontiert werden, erzeugen entweder zufälliges Rauschen oder halluzinieren Zeichen aus ähnlichen Schriften, die sie bereits kennen. Wir veröffentlichen den Benchmark und die Pipeline zur Reproduzierbarkeit. Pipeline-Code: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.

English

Optical character recognition (OCR) has advanced rapidly with the rise of vision-language models, yet evaluation has remained concentrated on a small cluster of high- and mid-resource scripts. We introduce GlotOCR Bench, a comprehensive benchmark evaluating OCR generalization across 100+ Unicode scripts. Our benchmark comprises clean and degraded image variants rendered from real multilingual texts. Images are rendered using fonts from the Google Fonts repository, shaped with HarfBuzz and rasterized with FreeType, supporting both LTR and RTL scripts. Samples of rendered images were manually reviewed to verify correct rendering across all scripts. We evaluate a broad suite of open-weight and proprietary vision-language models and find that most perform well on fewer than ten scripts, and even the strongest frontier models fail to generalize beyond thirty scripts. Performance broadly tracks script-level pretraining coverage, suggesting that current OCR systems rely on language model pretraining as much as on visual recognition. Models confronted with unfamiliar scripts either produce random noise or hallucinate characters from similar scripts they already know. We release the benchmark and pipeline for reproducibility. Pipeline Code: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.

GlotOCR Bench: OCR-Modelle kämpfen immer noch mit mehr als einer Handvoll Unicode-Schriften

GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

Zusammenfassung

Support