DODO: Modelos de Difusão Discretos para OCR

Resumo

O Reconhecimento Óptico de Caracteres (OCR) é uma tarefa fundamental para a digitalização de informações, servindo como uma ponte crítica entre dados visuais e compreensão textual. Embora os Modelos de Visão e Linguagem (VLM) modernos tenham alcançado alta precisão neste domínio, eles dependem predominantemente da descodificação autoregressiva, que se torna computacionalmente dispendiosa e lenta para documentos longos, pois requer uma passagem sequencial para cada token gerado. Identificamos uma oportunidade chave para superar este estrangulamento: ao contrário da geração de texto aberto, o OCR é uma tarefa altamente determinística onde a entrada visual dita estritamente uma sequência de saída única, permitindo teoricamente uma descodificação paralela eficiente através de modelos de difusão. No entanto, demonstramos que os modelos de difusão mascarada existentes não conseguem aproveitar este potencial; estes introduzem instabilidades estruturais que são benignas em tarefas flexíveis, como legendagem, mas catastróficas para os requisitos rígidos de correspondência exata do OCR. Para colmatar esta lacuna, introduzimos o DODO, o primeiro VLM a utilizar difusão discreta por blocos e a desbloquear o seu potencial de aceleração para o OCR. Ao decompor a geração em blocos, o DODO mitiga os erros de sincronização da difusão global. Empiricamente, o nosso método alcança uma precisão quase state-of-the-art, permitindo uma inferência até 3x mais rápida em comparação com as linhas de base autoregressivas.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO: Modelos de Difusão Discretos para OCR

DODO: Discrete OCR Diffusion Models

Resumo

Support