DODO: Discrete OCR Diffusiemodellen

Samenvatting

Optical Character Recognition (OCR) is een fundamentele taak voor het digitaliseren van informatie en fungeert als een cruciale brug tussen visuele gegevens en tekstueel begrip. Hoewel moderne Vision-Language Models (VLM) een hoge nauwkeurigheid hebben bereikt op dit gebied, zijn ze voornamelijk afhankelijk van autoregressieve decodering, wat rekenkundig duur en traag wordt voor lange documenten omdat er een sequentiële forward pass nodig is voor elk gegenereerd token. Wij identificeren een belangrijke mogelijkheid om dit knelpunt te overwinnen: in tegenstelling tot open-einde generatie is OCR een zeer deterministische taak waarbij de visuele invoer strikt een unieke uitvoersequentie dicteert, wat in theorie efficiënte, parallelle decodering via diffusiemodellen mogelijk maakt. Echter, wij tonen aan dat bestaande gemaskeerde diffusiemodellen dit potentieel niet benutten; deze introduceren structurele instabiliteiten die onschadelijk zijn bij flexibele taken, zoals bijschriften genereren, maar catastrofaal voor de rigide, exacte-match vereisten van OCR. Om deze kloof te overbruggen, introduceren wij DODO, het eerste VLM dat gebruikmaakt van blok discrete diffusie en diens snelheidswinst potentieel voor OCR ontsluit. Door generatie in blokken op te splitsen, vermindert DODO de synchronisatiefouten van globale diffusie. Empirisch bereikt onze methode een bijna state-of-the-art nauwkeurigheid, terwijl het tot 3x snellere inferentie mogelijk maakt in vergelijking met autoregressieve baseline-modellen.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO: Discrete OCR Diffusiemodellen

DODO: Discrete OCR Diffusion Models

Samenvatting

Support