MDPBench: 실제 시나리오에서의 다국어 문서 파싱 벤치마크
MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
March 30, 2026
저자: Zhang Li, Zhibo Lin, Qiang Liu, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiajun Song, Jiarui Zhang, Xiang Bai, Yuliang Liu
cs.AI
초록
우리는 다국어 디지털 및 촬영 문서 파싱을 위한 최초의 벤치마크인 Multilingual Document Parsing Benchmark(MDPBench)를 소개한다. 문서 파싱 분야는 눈부신 발전을 이루었으나, 이는 소수의 주류 언어로 된 깔끔하고 디지털이며 잘 정리된 페이지에 거의 독점적으로 집중되어 왔다. 다양한 문자 체계와 저자원 언어를 아우르는 디지털 및 촬영 문서에서 모델의 성능을 체계적으로 평가할 벤치마크는 존재하지 않았다. MDPBench는 17개 언어, 다양한 문자 체계, 다양한 촬영 조건을 아우르는 3,400개의 문서 이미지로 구성되며, 전문 모델 라벨링, 수동 수정, 인간 검증으로 이어지는 엄격한 과정을 통해 고품질 주석이 생성되었다. 공정한 비교와 데이터 누출을 방지하기 위해 공개 및 비공개 평가 분할을 별도로 유지한다. 오픈소스와 클로즈드소스 모델 모두에 대한 포괄적인 평가를 통해 놀라운 결과를 발견했는데, 클로즈드소스 모델(특히 Gemini3-Pro)은 상대적으로 견고한 성능을 보인 반면, 오픈소스 대안들은 특히 비라틴 문자 계열과 실제 촬영 문서에서 성능이 급격히 저하되는 현상(평균적으로 촬영 문서에서 17.8%, 비라틴 문자에서 14.0% 하락)을 보였다. 이러한 결과는 언어와 조건에 따른 심각한 성능 불균형을 드러내며, 더 포용적이고 실제 배포에 준비된 파싱 시스템을 구축하기 위한 구체적인 방향을 제시한다. 소스 코드는 https://github.com/Yuliang-Liu/MultimodalOCR 에서 확인할 수 있다.
English
We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.