DocAtlas : Compréhension multilingue de documents dans plus de 80 langues

Résumé

La compréhension de documents multilingues reste limitée pour les langues peu dotées en ressources en raison de la rareté des données d'entraînement et de pipelines d'annotation basés sur des modèles qui perpétuent les biais existants. Nous présentons DocAtlas, un cadre qui construit des ensembles de données OCR haute-fidélité et des benchmarks couvrant 82 langues et 9 tâches d'évaluation. Nos deux pipelines, le rendu différentiel de documents DOCX natifs et la génération synthétique basée sur LaTeX pour les écritures de droite à gauche, produisent des annotations structurelles précises dans un format unifié DocTag encodant la mise en page, le texte et les types de composants, sans modèles appris pour l'annotation de base. L'évaluation de 16 modèles de pointe révèle des lacunes persistantes dans les écritures peu dotées en ressources. Nous montrons que l'Optimisation par Préférence Directe (DPO) utilisant la vérité terrain dérivée du rendu comme signal positif permet une adaptation multilingue stable, améliorant à la fois la précision intra-domaine (+1,9%) et hors domaine (+1,8%) sans dégradation mesurable de la langue de base, tandis que le fine-tuning supervisé dégrade les performances hors domaine jusqu'à 21%. Notre meilleure variante, DocAtlas-DeepSeek, améliore de +1,7% par rapport au baseline le plus fort.

English

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.