DODO: Modelli di Diffusione Discreti per OCR

Abstract

L'Optical Character Recognition (OCR) è un compito fondamentale per la digitalizzazione delle informazioni, fungendo da ponte critico tra i dati visivi e la comprensione testuale. Sebbene i moderni Vision-Language Model (VLM) abbiano raggiunto un'elevata accuratezza in questo dominio, essi si basano prevalentemente su un decoding autoregressivo, che diventa computazionalmente costoso e lento per documenti lunghi, poiché richiede un passaggio sequenziale in avanti per ogni token generato. Identifichiamo un'opportunità chiave per superare questo collo di bottiglia: a differenza della generazione aperta, l'OCR è un compito altamente deterministico in cui l'input visivo determina rigorosamente una sequenza di output unica, teoricamente abilitando un decoding efficiente e parallelo tramite modelli di diffusione. Tuttavia, dimostriamo che gli esistenti modelli di diffusione mascherata non riescono a sfruttare questo potenziale; essi introducono instabilità strutturali che sono benigne in compiti flessibili, come la generazione di didascalie, ma catastrofiche per i requisiti rigidi di corrispondenza esatta dell'OCR. Per colmare questa lacuna, introduciamo DODO, il primo VLM che utilizza la diffusione discreta a blocchi per sbloccarne il potenziale di accelerazione per l'OCR. Scomponendo la generazione in blocchi, DODO mitiga gli errori di sincronizzazione della diffusione globale. Empiricamente, il nostro metodo raggiunge un'accuratezza quasi allo stato dell'arte, consentendo un'inferenza fino a 3 volte più veloce rispetto ai baseline autoregressivi.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO: Modelli di Diffusione Discreti per OCR

DODO: Discrete OCR Diffusion Models

Abstract

Support