DODO: 離散OCR拡散モデル
DODO: Discrete OCR Diffusion Models
February 18, 2026
著者: Sean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman
cs.AI
要旨
光学文字認識(OCR)は情報をデジタル化するための基盤技術であり、視覚データとテキスト理解の重要な橋渡しとして機能する。現代の視覚言語モデル(VLM)はこの領域で高い精度を達成しているが、その多くは自己回帰的なデコーディングに依存しており、生成される各トークンに対して順次的なフォワードパスを必要とするため、長文ドキュメントでは計算コストが高く処理速度が低下するという課題がある。我々はこのボトルネックを克服する決定的な可能性を見出した:オープンエンドな生成とは異なり、OCRは視覚入力を厳密に反映した一意の出力系列が定まる高い決定性を有するタスクであり、理論的には拡散モデルによる効率的な並列デコーディングが可能である。しかし、既存のマスク拡散モデルはこの潜在能力を活かし得ていない。それらはキャプション生成のような柔軟なタスクでは許容される構造的不安定性を生じるが、OCRの厳密な一致が要求される条件下では破滅的な誤りを引き起こす。この課題を解決するため、我々はブロック離散拡散を採用しOCRの高速化を実現する初のVLMであるDODOを提案する。生成プロセスをブロック単位に分解することで、DODOは大域的な拡散における同期誤差を軽減する。実験では、自己回帰ベースラインと比較して最大3倍の高速な推論を実現しつつ、ほぼ最先端の精度を達成した。
English
Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.