MinerU-Diffusion: Переосмысление OCR документов как обратного рендеринга через диффузионное декодированиеMinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
Оптическое распознавание символов (OCR) эволюционировало от транскрипции на уровне строк к структурированному парсингу документов, что требует от моделей восстановления длинных последовательностей, содержащих разметку, таблицы и формулы. Несмотря на недавние успехи в области визуально-языковых моделей, большинство существующих систем полагаются на авторегрессионное декодирование, которое вносит последовательную задержку и усиливает распространение ошибок в длинных документах. В данной работе мы переосмысливаем задачу OCR документов с точки зрения обратного рендеринга, утверждая, что причинно-следственное генерация слева направо является артефактом сериализации, а не внутренним свойством задачи. Руководствуясь этим наблюдением, мы предлагаем MinerU-Diffusion, унифицированную диффузионную модель, которая заменяет авторегрессионное последовательное декодирование на параллельное диффузионное шумоподавление при визуальном условии. MinerU-Diffusion использует блочный диффузионный декодер и стратегию обучения по учебному плану, управляемую неопределенностью, чтобы обеспечить стабильное обучение и эффективный вывод длинных последовательностей. Многочисленные эксперименты демонстрируют, что MinerU-Diffusion последовательно повышает устойчивость, достигая до 3.2-кратного ускорения декодирования по сравнению с авторегрессионными аналогами. Оценки на предложенном бенчмарке Semantic Shuffle дополнительно подтверждают снижение зависимости от лингвистических априорных знаний и усиление визуальных возможностей OCR.