DODO: Дискретные диффузионные модели для оптического распознавания текста

Аннотация

Оптическое распознавание символов (OCR) является фундаментальной задачей для оцифровки информации, выступая в качестве критически важного моста между визуальными данными и текстовым пониманием. Хотя современные модели «визуальный язык» (VLM) достигли высокой точности в этой области, они в основном полагаются на авторегрессионное декодирование, которое становится вычислительно затратным и медленным для длинных документов, поскольку требует последовательного прямого прохода для каждого генерируемого токена. Мы выявили ключевую возможность преодоления этого узкого места: в отличие от генерации с открытым концом, OCR — это высокодетерминированная задача, где визуальный вход строго определяет уникальную выходную последовательность, что теоретически позволяет осуществлять эффективное параллельное декодирование с помощью диффузионных моделей. Однако мы показываем, что существующие маскированные диффузионные модели не могут использовать этот потенциал; они вносят структурные нестабильности, которые допустимы для гибких задач, таких как создание подписей, но катастрофичны для жестких требований точного соответствия в OCR. Чтобы устранить этот разрыв, мы представляем DODO — первую VLM, использующую блочную дискретную диффузию и раскрывающую её потенциал для ускорения OCR. Разлагая генерацию на блоки, DODO смягчает ошибки синхронизации, присущие глобальной диффузии. Экспериментально наш метод демонстрирует точность, близкую к state-of-the-art, при этом обеспечивая до 3-кратного ускорения вывода по сравнению с авторегрессионными базовыми методами.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO: Дискретные диффузионные модели для оптического распознавания текста

DODO: Discrete OCR Diffusion Models

Аннотация

Support