DODO: Modelos de Difusión Discretos para OCR

Resumen

El Reconocimiento Óptico de Caracteres (OCR) es una tarea fundamental para la digitalización de información, actuando como un puente crítico entre los datos visuales y la comprensión textual. Si bien los Modelos de Visión y Lenguaje (VLM) modernos han logrado una alta precisión en este dominio, dependen predominantemente de la decodificación autoregresiva, que resulta computacionalmente costosa y lenta para documentos largos, ya que requiere un paso hacia adelante secuencial por cada token generado. Identificamos una oportunidad clave para superar este cuello de botella: a diferencia de la generación abierta, el OCR es una tarea altamente determinista donde la entrada visual dicta estrictamente una secuencia de salida única, lo que teóricamente permite una decodificación paralela y eficiente mediante modelos de difusión. Sin embargo, demostramos que los modelos de difusión enmascarados existentes no logran aprovechar este potencial; estos introducen inestabilidades estructurales que son benignas en tareas flexibles, como la generación de subtítulos, pero catastróficas para los requisitos rígidos de coincidencia exacta del OCR. Para cerrar esta brecha, presentamos DODO, el primer VLM que utiliza difusión discreta por bloques y desbloquea su potencial de aceleración para el OCR. Al descomponer la generación en bloques, DODO mitiga los errores de sincronización de la difusión global. Empíricamente, nuestro método logra una precisión cercana a la del estado del arte y permite una inferencia hasta 3 veces más rápida en comparación con los métodos baseline autoregresivos.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO: Modelos de Difusión Discretos para OCR

DODO: Discrete OCR Diffusion Models

Resumen

Support