DocAtlas: Многоязычное понимание документов на более чем 80 языках

Аннотация

Понимание многоязычных документов остается ограниченным для языков с низкими ресурсами из-за нехватки обучающих данных и конвейеров аннотаций на основе моделей, которые сохраняют существующие предубеждения. Мы представляем DocAtlas — фреймворк, который создает высококачественные наборы данных OCR и бенчмарки, охватывающие 82 языка и 9 оценочных задач. Наши двойные конвейеры — дифференциальный рендеринг нативных документов DOCX и синтетическая генерация на основе LaTeX для письменностей справа налево — создают точные структурные аннотации в унифицированном формате DocTag, кодирующем типы макета, текста и компонентов, без использования обученных моделей для основной аннотации. Оценка 16 современных моделей выявляет постоянные пробелы в низкоресурсных письменностях. Мы показываем, что Direct Preference Optimization (DPO) с использованием эталонных данных, полученных при рендеринге, в качестве положительного сигнала обеспечивает стабильную многоязычную адаптацию, улучшая точность как внутри домена (+1,9%), так и вне домена (+1,8%) без измеримого ухудшения базового языка, тогда как контролируемая тонкая настройка ухудшает производительность вне домена до 21%. Наш лучший вариант, DocAtlas-DeepSeek, улучшает показатель на +1,7% по сравнению с самым сильным базовым уровнем.

English

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.