MDPBench: Ein Benchmark für mehrsprachige Dokumentenanalyse in realen Anwendungsszenarien

Zusammenfassung

Wir stellen das Multilingual Document Parsing Benchmark vor, den ersten Benchmark für die mehrsprachige Analyse digitaler und fotografierter Dokumente. Die Dokumentenanalyse hat bemerkenswerte Fortschritte gemacht, konzentriert sich jedoch fast ausschließlich auf saubere, digitale und gut formatierte Seiten in einer Handvoll dominanter Sprachen. Es existiert kein systematischer Benchmark, um zu evaluieren, wie Modelle bei digitalen und fotografierten Dokumenten über verschiedene Schriftsysteme und niedrigressourcen-Sprachen hinweg abschneiden. MDPBench umfasst 3.400 Dokumentenbilder aus 17 Sprachen, diversen Schriftsystemen und unterschiedlichen fotografischen Bedingungen, versehen mit hochwertigen Annotationen, die durch einen rigorosen Prozess aus Expert-Modell-Labeling, manueller Korrektur und menschlicher Verifizierung erstellt wurden. Um einen fairen Vergleich zu gewährleisten und Datenlecks zu vermeiden, unterhalten wir separate öffentliche und private Evaluierungs-Splits. Unsere umfassende Evaluation sowohl von Open-Source- als auch von Closed-Source-Modellen fördert eine auffällige Erkenntnis zutage: Während sich Closed-Source-Modelle (insbesondere Gemini3-Pro) als relativ robust erweisen, erleiden Open-Source-Alternativen einen dramatischen Leistungseinbruch, insbesondere bei nicht-lateinischen Schriftsystemen und realweltlichen fotografierten Dokumenten, mit einem durchschnittlichen Rückgang von 17,8 % bei fotografierten Dokumenten und 14,0 % bei nicht-lateinischen Schriften. Diese Ergebnisse zeigen erhebliche Leistungsungleichgewichte zwischen Sprachen und Bedingungen auf und weisen konkrete Richtungen für den Aufbau inklusiverer, einsatzbereiter Parsing-Systeme. Quelle verfügbar unter https://github.com/Yuliang-Liu/MultimodalOCR.

English

We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.

MDPBench: Ein Benchmark für mehrsprachige Dokumentenanalyse in realen Anwendungsszenarien

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Zusammenfassung

Support