MDPBench: Бенчмарк для многодоменного парсинга документов в реальных сценариях

Аннотация

Мы представляем Multilingual Document Parsing Benchmark (MDPBench) — первый бенчмарк для анализа многоязычных цифровых и сфотографированных документов. Анализ документов достиг значительных успехов, однако почти исключительно на чистых, цифровых, хорошо форматированных страницах на нескольких доминирующих языках. Систематический бенчмарк для оценки работы моделей на цифровых и сфотографированных документах с разнообразными системами письма и низкоресурсными языками до сих пор отсутствовал. MDPBench включает 3400 изображений документов на 17 языках с различными системами письма и условиями съемки, снабженных высококачественными аннотациями, созданными по строгому конвейеру: автоматическая разметка экспертной моделью, ручная корректировка и проверка человеком. Для обеспечения честного сравнения и предотвращения утечки данных мы поддерживаем раздельные публичный и приватный наборы для оценки. Наше всестороннее тестирование как открытых, так и проприетарных моделей выявило поразительный результат: в то время как проприетарные модели (в частности, Gemini3-Pro) демонстрируют относительную устойчивость, модели с открытым исходным кодом показывают резкое падение производительности, особенно на документах с нелатинской письменностью и реальных сфотографированных документах — в среднем на 17,8% на сфотографированных документах и на 14,0% на документах с нелатинскими шрифтами. Эти результаты выявляют значительный дисбаланс производительности между языками и условиями и указывают конкретные направления для создания более инклюзивных, готовых к развертыванию систем анализа. Исходный код доступен по адресу: https://github.com/Yuliang-Liu/MultimodalOCR.

English

We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.

MDPBench: Бенчмарк для многодоменного парсинга документов в реальных сценариях

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Аннотация

Support