DODO : Modèles de Diffusion Discrets pour la Reconnaissance Optique de Caractères

Résumé

La reconnaissance optique de caractères (OCR) est une tâche fondamentale pour la numérisation de l'information, servant de pont critique entre les données visuelles et la compréhension textuelle. Bien que les modèles vision-langage (VLM) modernes aient atteint une grande précision dans ce domaine, ils reposent principalement sur un décodage autorégressif, qui devient coûteux en calculs et lent pour les documents longs car il nécessite un passage séquentiel pour chaque token généré. Nous identifions une opportunité clé pour surmonter ce goulot d'étranglement : contrairement à la génération ouverte, l'OCR est une tâche hautement déterministe où l'entrée visuelle dicte strictement une séquence de sortie unique, permettant théoriquement un décodage parallèle efficace via les modèles de diffusion. Cependant, nous montrons que les modèles de diffusion masqués existants ne parviennent pas à exploiter ce potentiel ; ils introduisent des instabilités structurelles bénignes pour des tâches flexibles comme la légende d'images, mais catastrophiques pour les exigences rigides de correspondance exacte de l'OCR. Pour combler cette lacune, nous présentons DODO, le premier VLM à utiliser la diffusion discrète par blocs et à libérer son potentiel d'accélération pour l'OCR. En décomposant la génération en blocs, DODO atténue les erreurs de synchronisation de la diffusion globale. Empiriquement, notre méthode atteint une précision proche de l'état de l'art tout en permettant une inférence jusqu'à 3 fois plus rapide que les modèles de référence autorégressifs.

English

Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.

DODO : Modèles de Diffusion Discrets pour la Reconnaissance Optique de Caractères

DODO: Discrete OCR Diffusion Models

Résumé

Support