DODO: Diskrete OCR-Diffusionsmodelle

Zusammenfassung

Optische Zeichenerkennung (OCR) ist eine grundlegende Aufgabe zur Digitalisierung von Informationen und dient als entscheidende Brücke zwischen visuellen Daten und textuellem Verständnis. Während moderne Vision-Language-Modelle (VLM) in diesem Bereich hohe Genauigkeit erreicht haben, stützen sie sich überwiegend auf autoregressives Decodieren, das bei langen Dokumenten rechenintensiv und langsam wird, da ein sequenzieller Vorwärtsdurchlauf für jedes erzeugte Token erforderlich ist. Wir identifizieren eine zentrale Möglichkeit, diesen Engpass zu überwinden: Im Gegensatz zur freien Generierung ist OCR eine hochgradig deterministische Aufgabe, bei der die visuelle Eingabe eindeutig eine einzige Ausgabesequenz vorgibt, was theoretisch effizientes, paralleles Decodieren mittels Diffusionsmodellen ermöglicht. Wir zeigen jedoch, dass bestehende maskierte Diffusionsmodelle dieses Potenzial nicht ausschöpfen; diese führen strukturelle Instabilitäten ein, die bei flexiblen Aufgaben wie der Bildbeschreibung harmlos, aber für die starren Exakt-Treffer-Anforderungen der OCR katastrophal sind. Um diese Lücke zu schließen, stellen wir DODO vor, das erste VLM, das blockweise diskrete Diffusion nutzt und ihr Beschleunigungspotenzial für OCR erschließt. Durch die Zerlegung der Generierung in Blöcke mildert DODO die Synchronisationsfehler der globalen Diffusion. Empirisch erreicht unsere Methode eine annähernd state-of-the-art Genauigkeit bei gleichzeitig bis zu 3-fach schnellerer Inferenz im Vergleich zu autoregressiven Baseline-Modellen.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO: Diskrete OCR-Diffusionsmodelle

DODO: Discrete OCR Diffusion Models

Zusammenfassung

Support