DocAtlas: Compreensão Multilíngue de Documentos em Mais de 80 Idiomas

Resumo

A compreensão de documentos multilíngue permanece limitada para línguas com poucos recursos, devido à escassez de dados de treinamento e a pipelines de anotação baseados em modelos que perpetuam vieses existentes. Apresentamos o DocAtlas, um framework que constrói conjuntos de dados de OCR de alta fidelidade e benchmarks cobrindo 82 línguas e 9 tarefas de avaliação. Nossos pipelines duplos — renderização diferencial de documentos DOCX nativos e geração sintética baseada em LaTeX para escritas da direita para a esquerda — produzem anotações estruturais precisas em um formato unificado DocTag, codificando layout, texto e tipos de componentes, sem modelos aprendidos para a anotação central. A avaliação de 16 modelos de ponta revela lacunas persistentes em escritas com poucos recursos. Mostramos que a Otimização de Preferência Direta (DPO), utilizando verdade fundamental derivada da renderização como sinal positivo, alcança adaptação multilíngue estável, melhorando a precisão tanto intradomínio (+1,9%) quanto extradomínio (+1,8%), sem degradação mensurável da língua base, enquanto o ajuste fino supervisionado degrada o desempenho extradomínio em até 21%. Nossa melhor variante, DocAtlas-DeepSeek, melhora +1,7% em relação à linha de base mais forte.

English

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.