MDPBench : Un Référentiel pour l'Analyse de Documents Multilingues dans des Scénarios Réels

Résumé

Nous présentons le benchmark Multilingual Document Parsing Benchmark (MDPBench), premier benchmark dédié à l'analyse de documents numériques et photographiés en contexte multilingue. L'analyse documentaire a accompli des progrès remarquables, mais se concentre presque exclusivement sur des pages numériques, propres et bien formatées, dans une poignée de langues dominantes. Aucun benchmark systématique n'existe pour évaluer les performances des modèles sur des documents numériques et photographiés couvrant divers systèmes d'écriture et langues peu dotées. MDPBench comprend 3 400 images de documents réparties sur 17 langues, divers scripts et différentes conditions photographiques, avec des annotations de haute qualité produites via un pipeline rigoureux de labellisation par modèle expert, correction manuelle et vérification humaine. Pour garantir une comparaison équitable et prévenir les fuites de données, nous maintenons des divisions d'évaluation publiques et privées distinctes. Notre évaluation exhaustive des modèles open-source et closed-source révèle un constat frappant : si les modèles closed-source (notamment Gemini3-Pro) se montrent relativement robustes, les alternatives open-source subissent un effondrement dramatique des performances, particulièrement sur les scripts non-latins et les documents photographiés en conditions réelles, avec une baisse moyenne de 17,8 % sur les documents photographiés et de 14,0 % sur les scripts non-latins. Ces résultats mettent en lumière des déséquilibres significatifs de performance entre les langues et les conditions, et indiquent des directions concrètes pour construire des systèmes d'analyse plus inclusifs et prêts pour le déploiement. Code source disponible à l'adresse https://github.com/Yuliang-Liu/MultimodalOCR.

English

We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.

MDPBench : Un Référentiel pour l'Analyse de Documents Multilingues dans des Scénarios Réels

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Résumé

Support