GlotOCR Bench: OCR-modellen worstelen nog steeds met meer dan een handvol Unicode-schriften

Samenvatting

Optische tekenherkenning (OCR) heeft een snelle ontwikkeling doorgemaakt met de opkomst van vision-language modellen, maar de evaluatie blijft geconcentreerd op een kleine groep scripts met hoge en middelhoge middelen. Wij introduceren GlotOCR Bench, een uitgebreide benchmark die de OCR-generaliseerbaarheid evalueert over 100+ Unicode-scripts. Onze benchmark omvat schone en gedegradeerde beeldvarianten gegenereerd uit echte meertalige teksten. De afbeeldingen worden gegenereerd met lettertypes uit de Google Fonts repository, vormgegeven met HarfBuzz en gerasterd met FreeType, met ondersteuning voor zowel LTR- als RTL-scripts. Steekproeven van gegenereerde afbeeldingen zijn handmatig gecontroleerd om de correcte weergave voor alle scripts te verifiëren. Wij evalueren een breed scala aan open-access en propriëtaire vision-language modellen en constateren dat de meeste modellen goed presteren op minder dan tien scripts, en dat zelfs de sterkste frontier-modellen niet verder generaliseren dan dertig scripts. De prestaties volgen grotendeels de script-specifieke pretrainingsdekking, wat suggereert dat huidige OCR-systemen evenveel steunen op taalmodelpretraining als op visuele herkenning. Modellen die met onbekende scripts worden geconfronteerd, produceren ofwel willekeurige ruis of hallucineren karakters uit vergelijkbare scripts die ze al kennen. Wij publiceren de benchmark en pijplijn voor reproduceerbaarheid. Pijplijndefinitie: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.

English

Optical character recognition (OCR) has advanced rapidly with the rise of vision-language models, yet evaluation has remained concentrated on a small cluster of high- and mid-resource scripts. We introduce GlotOCR Bench, a comprehensive benchmark evaluating OCR generalization across 100+ Unicode scripts. Our benchmark comprises clean and degraded image variants rendered from real multilingual texts. Images are rendered using fonts from the Google Fonts repository, shaped with HarfBuzz and rasterized with FreeType, supporting both LTR and RTL scripts. Samples of rendered images were manually reviewed to verify correct rendering across all scripts. We evaluate a broad suite of open-weight and proprietary vision-language models and find that most perform well on fewer than ten scripts, and even the strongest frontier models fail to generalize beyond thirty scripts. Performance broadly tracks script-level pretraining coverage, suggesting that current OCR systems rely on language model pretraining as much as on visual recognition. Models confronted with unfamiliar scripts either produce random noise or hallucinate characters from similar scripts they already know. We release the benchmark and pipeline for reproducibility. Pipeline Code: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.

GlotOCR Bench: OCR-modellen worstelen nog steeds met meer dan een handvol Unicode-schriften

GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

Samenvatting

Support