OCR illimité fonctionne

Résumé

Récemment, les modèles OCR de bout en bout, illustrés par DeepSeek OCR, ont une fois de plus remis l’OCR au premier plan. Un avis largement répandu est que l’utilisation d’un modèle de langage de grande taille (LLM) comme décodeur permet au modèle d’exploiter la distribution a priori du langage, améliorant ainsi les performances de l’OCR. Cependant, l’inconvénient est tout aussi évident : à mesure que la séquence de sortie s’allonge, le cache KV accumulé augmente la consommation mémoire et ralentit progressivement la génération. Cela contraste fortement avec les humains, qui ne présentent pas cette baisse d’efficacité lors de tâches de copie sur de longues séquences. Dans ce rapport technique, nous proposons Unlimited OCR, un modèle conçu pour imiter la mémoire de travail de décodage humain. En prenant DeepSeek OCR comme référence, nous remplaçons toutes les couches d’attention du décodeur par notre mécanisme d’attention à fenêtre glissante de référence (R-SWA), qui réduit les coûts de calcul de l’attention tout en maintenant un cache KV constant tout au long du processus de décodage. En combinant le taux de compression élevé du codeur de DeepSeek OCR avec notre conception de cache KV constant, Unlimited OCR peut transcrire des dizaines de pages de documents en un seul passage avant sous une longueur maximale standard de 32K. Plus important encore, R-SWA est un mécanisme d’attention de décodage universel – au-delà de l’OCR, il est également applicable à des tâches telles que la reconnaissance automatique de la parole (ASR), la traduction, etc. Les codes et les poids du modèle sont disponibles publiquement sur http://github.com/baidu/Unlimited-OCR.

English

Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR performance. However, the downside is equally evident: as the output sequence lengthens, the accumulated KV cache drives up memory consumption and progressively slows down generation. This stands in stark contrast to humans, who exhibit no such decline in efficiency during long-horizon copying tasks. In this technical report, we propose Unlimited OCR, a model designed to emulate human parsing working memory. Taking DeepSeek OCR as the baseline, we replace all attention layers in the decoder with our proposed Reference Sliding Window Attention (R-SWA), which reduces attention computation costs while maintaining a constant KV cache throughout the entire decoding process. By combining the high compression rate of DeepSeek OCR's encoder with our constant KV cache design, Unlimited OCR can transcribe dozens of pages of documents in a single forward pass under a standard maximum length of 32K. More importantly, R-SWA is a general-purpose parsing attention mechanism - beyond OCR, it is equally applicable to tasks such as ASR, translation, etc. Codes and model weights are publicly available at http://github.com/baidu/Unlimited-OCR.