MDPBench: Un Benchmark para el Análisis de Documentos Multilingüe en Escenarios del Mundo Real

Resumen

Presentamos Multilingual Document Parsing Benchmark (MDPBench), el primer punto de referencia para el análisis de documentos digitales y fotografiados en múltiples idiomas. El análisis de documentos ha logrado avances notables, aunque casi exclusivamente en páginas digitales, limpias y bien formateadas, en un puñado de idiomas dominantes. No existe un punto de referencia sistemático para evaluar el rendimiento de los modelos en documentos digitales y fotografiados que abarque diversos sistemas de escritura e idiomas de recursos limitados. MDPBench comprende 3.400 imágenes de documentos que abarcan 17 idiomas, diversos sistemas de escritura y variadas condiciones fotográficas, con anotaciones de alta calidad producidas mediante un riguroso proceso de etiquetado con modelos expertos, corrección manual y verificación humana. Para garantizar una comparación justa y prevenir la filtración de datos, mantenemos divisiones de evaluación públicas y privadas por separado. Nuestra evaluación exhaustiva de modelos tanto de código abierto como cerrado revela un hallazgo sorprendente: mientras que los modelos cerrados (especialmente Gemini3-Pro) demuestran una robustez relativa, las alternativas de código abierto sufren un colapso drástico en el rendimiento, particularmente en sistemas de escritura no latinos y documentos fotografiados del mundo real, con una caída promedio del 17.8% en documentos fotografiados y del 14.0% en sistemas de escritura no latinos. Estos resultados revelan desequilibrios significativos de rendimiento entre idiomas y condiciones, y señalan direcciones concretas para construir sistemas de análisis más inclusivos y listos para implementación. El código fuente está disponible en https://github.com/Yuliang-Liu/MultimodalOCR.

English

We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.

MDPBench: Un Benchmark para el Análisis de Documentos Multilingüe en Escenarios del Mundo Real

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Resumen

Support