DODO: 이산 OCR 확산 모델
DODO: Discrete OCR Diffusion Models
February 18, 2026
저자: Sean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman
cs.AI
초록
광학 문자 인식(OCR)은 정보의 디지털화를 위한 핵심 과업으로, 시각 데이터와 텍스트 이해 사이의 중요한 가교 역할을 합니다. 현대 시각-언어 모델(VLM)은 이 분야에서 높은 정확도를 달성했으나, 대부분 자기회귀 디코딩에 의존하여 생성된 모든 토큰에 대해 순차적 순전파가 필요하므로 장문 문서에서는 계산 비용이 크고 속도가 느려지는 문제가 있습니다. 우리는 이러한 병목 현상을 극복할 결정적 기회를 발견했습니다: 개방형 생성과 달리 OCR은 시각적 입력이 고유한 출력 시퀀스를 엄격하게 규정하는 높은 결정론적 과업으로, 이론적으로 확산 모델을 통한 효율적인 병렬 디코딩이 가능합니다. 그러나 기존 마스크 확산 모델은 이러한 잠재력을 활용하지 못하는데, 이러한 모델들은 캡션 생성과 같은 유연한 과업에서는 무해하지만 OCR의 엄격한 정확도 매칭 요구사항에서는 치명적인 구조적 불안정성을 초래합니다. 이러한 격차를 해소하기 위해 우리는 블록 이산 확산을 활용하여 OCR의 속도 향상 잠재력을 실현한 최초의 VLM인 DODO를 제안합니다. 생성 과정을 블록 단위로 분해함으로써 DODO는 전역 확산의 동기화 오류를 완화합니다. 실험 결과, 우리의 방법은 기존 자기회귀 모델 대비 최대 3배 빠른 추론 속도를 구현하면서도 거의 최첨단 수준의 정확도를 달성했습니다.
English
Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.