MDPBench: Um Benchmark para Análise de Documentos Multilíngues em Cenários do Mundo Real

Resumo

Apresentamos o Multilingual Document Parsing Benchmark, o primeiro benchmark para análise de documentos digitais e fotografados em múltiplos idiomas. A análise de documentos fez progressos notáveis, mas quase que exclusivamente em páginas limpas, digitais e bem formatadas em um punhado de idiomas dominantes. Não existe um benchmark sistemático para avaliar o desempenho dos modelos em documentos digitais e fotografados abrangendo diversos sistemas de escrita e idiomas de baixos recursos. O MDPBench compreende 3.400 imagens de documentos abrangendo 17 idiomas, diversos sistemas de escrita e variadas condições fotográficas, com anotações de alta qualidade produzidas por meio de um rigoroso pipeline de rotulagem por modelo especialista, correção manual e verificação humana. Para garantir uma comparação justa e evitar vazamento de dados, mantemos divisões de avaliação públicas e privadas separadas. Nossa avaliação abrangente de modelos de código aberto e proprietários revela uma descoberta marcante: enquanto os modelos proprietários (notavelmente o Gemini3-Pro) mostram-se relativamente robustos, as alternativas de código aberto sofrem um colapso dramático de desempenho, particularmente em sistemas de escrita não latinos e em documentos fotografados do mundo real, com uma queda média de 17,8% em documentos fotografados e 14,0% em sistemas de escrita não latinos. Esses resultados revelam desequilíbrios significativos de desempenho entre idiomas e condições, e apontam direções concretas para a construção de sistemas de análise mais inclusivos e prontos para implantação. Fonte disponível em https://github.com/Yuliang-Liu/MultimodalOCR.

English

We introduce Multilingual Document Parsing Benchmark, the first benchmark for multilingual digital and photographed document parsing. Document parsing has made remarkable strides, yet almost exclusively on clean, digital, well-formatted pages in a handful of dominant languages. No systematic benchmark exists to evaluate how models perform on digital and photographed documents across diverse scripts and low-resource languages. MDPBench comprises 3,400 document images spanning 17 languages, diverse scripts, and varied photographic conditions, with high-quality annotations produced through a rigorous pipeline of expert model labeling, manual correction, and human verification. To ensure fair comparison and prevent data leakage, we maintain separate public and private evaluation splits. Our comprehensive evaluation of both open-source and closed-source models uncovers a striking finding: while closed-source models (notably Gemini3-Pro) prove relatively robust, open-source alternatives suffer dramatic performance collapse, particularly on non-Latin scripts and real-world photographed documents, with an average drop of 17.8% on photographed documents and 14.0% on non-Latin scripts. These results reveal significant performance imbalances across languages and conditions, and point to concrete directions for building more inclusive, deployment-ready parsing systems. Source available at https://github.com/Yuliang-Liu/MultimodalOCR.

MDPBench: Um Benchmark para Análise de Documentos Multilíngues em Cenários do Mundo Real

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Resumo

Support