ChatPaper.aiChatPaper

DocAtlas: Meertalig documentbegrip in meer dan 80 talen

DocAtlas: Multilingual Document Understanding Across 80+ Languages

May 12, 2026
Auteurs: Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan
cs.AI

Samenvatting

Het begrip van meertalige documenten blijft beperkt voor laagbron-talen vanwege schaarse trainingsdata en op modellen gebaseerde annotatiepijplijnen die bestaande vooroordelen in stand houden. We introduceren DocAtlas, een raamwerk dat hooggetrouwe OCR-datasets en benchmarks construeert die 82 talen en 9 evaluatietaken omvatten. Onze dubbele pijplijnen – differentiële rendering van native DOCX-documenten en synthetische op LaTeX gebaseerde generatie voor rechts-naar-links schriften – produceren nauwkeurige structurele annotaties in een uniform DocTag-formaat dat lay-out, tekst en componenttypes codeert, zonder gebruik van aangeleerde modellen voor de kernannotatie. Evaluatie van 16 state-of-the-art modellen toont aanhoudende hiaten in laagbron-schriften aan. We laten zien dat Directe Preferentieoptimalisatie (DPO) met op rendering gebaseerde ground truth als positief signaal een stabiele meertalige aanpassing bewerkstelligt, waarbij zowel de nauwkeurigheid binnen het domein (+1,9%) als buiten het domein (+1,8%) verbetert zonder meetbare achteruitgang van de basistaal, terwijl gesuperviseerde finetuning de prestaties buiten het domein tot 21% verslechtert. Onze beste variant, DocAtlas-DeepSeek, verbetert met +1,7% ten opzichte van de sterkste baseline.
English
Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.