MDPBench:実世界シナリオにおける多言語文書解析のベンチマーク
MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
March 30, 2026
著者: Zhang Li, Zhibo Lin, Qiang Liu, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiajun Song, Jiarui Zhang, Xiang Bai, Yuliang Liu
cs.AI
要旨
我々は、多言語デジタル・写真文書解析における初のベンチマーク「Multilingual Document Parsing Benchmark」を提案する。文書解析技術は著しく進歩しているものの、その評価は一部の主要言語における清書されたデジタル形式の整った文書にほぼ限定されている。多様な文字体系や低リソース言語にわたるデジタル及び写真文書に対するモデル性能を体系的に評価するベンチマークは存在しなかった。MDPBenchは17言語、多様な文字体系、様々な撮影条件をカバーする3,400枚の文書画像から構成され、専門モデルによるラベリング、手動修正、人的検証という厳格なプロセスを通じて高品質なアノテーションを付与している。公平な比較とデータ漏洩を防ぐため、公開評価用と非公開評価用のデータ分割を維持している。オープンソースモデルとクローズドソースモデル双方に対する総合的な評価により、驚くべき知見が得られた:クローズドソースモデル(特にGemini3-Pro)は比較的堅牢である一方、オープンソースモデルは劇的な性能低下を示し、非ラテン文字や実世界の写真文書において顕著で、写真文書では平均17.8%、非ラテン文字では14.0%の性能低下が見られた。これらの結果は言語や条件間における著しい性能不均衡を明らかにするとともに、より包括的で実用レベルの解析システム構築への具体的な方向性を示すものである。ソースコードはhttps://github.com/Yuliang-Liu/MultimodalOCR で公開されている。
English
We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.