DocAtlas: Comprensión multilingüe de documentos en más de 80 idiomas

Resumen

La comprensión de documentos multilingüe sigue siendo limitada para idiomas de bajos recursos debido a la escasez de datos de entrenamiento y a los canales de anotación basados en modelos que perpetúan sesgos existentes. Presentamos DocAtlas, un marco que construye conjuntos de datos y puntos de referencia OCR de alta fidelidad que abarcan 82 idiomas y 9 tareas de evaluación. Nuestros canales duales —renderizado diferencial de documentos DOCX nativos y generación sintética basada en LaTeX para escrituras de derecha a izquierda— producen anotaciones estructurales precisas en un formato unificado DocTag que codifica diseño, texto y tipos de componentes, sin usar modelos aprendidos para la anotación central. La evaluación de 16 modelos de vanguardia revela brechas persistentes en escrituras de bajos recursos. Demostramos que la Optimización de Preferencia Directa (DPO) que utiliza la verdad fundamental derivada del renderizado como señal positiva logra una adaptación multilingüe estable, mejorando la precisión tanto dentro del dominio (+1,9 %) como fuera del dominio (+1,8 %) sin degradación medible del idioma base, mientras que el ajuste fino supervisado degrada el rendimiento fuera del dominio hasta en un 21 %. Nuestra mejor variante, DocAtlas-DeepSeek, mejora un +1,7 % respecto a la línea base más fuerte.

English

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.