DocAtlas: Multilinguales Dokumentenverständnis in über 80 Sprachen

Zusammenfassung

Das mehrsprachige Dokumentenverständnis bleibt für ressourcenarme Sprachen aufgrund knapper Trainingsdaten und modellbasierter Annotationspipelines, die bestehende Verzerrungen verstärken, eingeschränkt. Wir stellen DocAtlas vor, ein Framework, das hochpräzise OCR-Datensätze und Benchmarks erstellt, die 82 Sprachen und 9 Evaluierungsaufgaben abdecken. Unsere dualen Pipelines – differentielles Rendering nativer DOCX-Dokumente und synthetische LaTeX-basierte Generierung für rechts-nach-links-Schriften – erzeugen präzise strukturelle Annotationen in einem einheitlichen DocTag-Format, das Layout, Text und Komponententypen kodiert, ohne dass gelernte Modelle für die Kernannotation erforderlich sind. Die Evaluierung von 16 State-of-the-Art-Modellen zeigt anhaltende Lücken bei ressourcenarmen Schriften. Wir zeigen, dass Direct Preference Optimization (DPO) unter Verwendung von aus dem Rendering abgeleiteter Ground Truth als positivem Signal eine stabile mehrsprachige Anpassung erreicht und sowohl die In-Domain- (+1,9 %) als auch die Out-of-Domain-Genauigkeit (+1,8 %) verbessert, ohne messbare Verschlechterung der Basissprache – wohingegen überwachtes Feintuning die Out-of-Domain-Leistung um bis zu 21 % verschlechtert. Unsere beste Variante, DocAtlas-DeepSeek, verbessert sich um +1,7 % gegenüber der stärksten Baseline.

English

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.