DocAtlas: Meertalig documentbegrip in meer dan 80 talen

Samenvatting

Het begrip van meertalige documenten blijft beperkt voor laagbron-talen vanwege schaarse trainingsdata en op modellen gebaseerde annotatiepijplijnen die bestaande vooroordelen in stand houden. We introduceren DocAtlas, een raamwerk dat hooggetrouwe OCR-datasets en benchmarks construeert die 82 talen en 9 evaluatietaken omvatten. Onze dubbele pijplijnen – differentiële rendering van native DOCX-documenten en synthetische op LaTeX gebaseerde generatie voor rechts-naar-links schriften – produceren nauwkeurige structurele annotaties in een uniform DocTag-formaat dat lay-out, tekst en componenttypes codeert, zonder gebruik van aangeleerde modellen voor de kernannotatie. Evaluatie van 16 state-of-the-art modellen toont aanhoudende hiaten in laagbron-schriften aan. We laten zien dat Directe Preferentieoptimalisatie (DPO) met op rendering gebaseerde ground truth als positief signaal een stabiele meertalige aanpassing bewerkstelligt, waarbij zowel de nauwkeurigheid binnen het domein (+1,9%) als buiten het domein (+1,8%) verbetert zonder meetbare achteruitgang van de basistaal, terwijl gesuperviseerde finetuning de prestaties buiten het domein tot 21% verslechtert. Onze beste variant, DocAtlas-DeepSeek, verbetert met +1,7% ten opzichte van de sterkste baseline.

English

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.