DeepSeek-OCR : Compression Optique Contextuelle
DeepSeek-OCR: Contexts Optical Compression
October 21, 2025
papers.authors: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI
papers.abstract
Nous présentons DeepSeek-OCR comme une première exploration de la faisabilité de la compression de contextes longs via une cartographie optique 2D. DeepSeek-OCR se compose de deux éléments : DeepEncoder et DeepSeek3B-MoE-A570M en tant que décodeur. Plus précisément, DeepEncoder sert de moteur central, conçu pour maintenir de faibles activations avec des entrées haute résolution tout en atteignant des taux de compression élevés pour garantir un nombre optimal et gérable de tokens visuels. Les expériences montrent que lorsque le nombre de tokens textuels est inférieur à 10 fois celui des tokens visuels (c'est-à-dire un taux de compression < 10x), le modèle peut atteindre une précision de décodage (OCR) de 97 %. Même avec un taux de compression de 20x, la précision OCR reste d'environ 60 %. Cela montre un potentiel considérable pour des domaines de recherche tels que la compression de contextes historiques longs et les mécanismes d'oubli dans les LLMs. Au-delà de cela, DeepSeek-OCR démontre également une grande valeur pratique. Sur OmniDocBench, il surpasse GOT-OCR2.0 (256 tokens/page) en utilisant seulement 100 tokens visuels, et dépasse MinerU2.0 (6000+ tokens par page en moyenne) tout en utilisant moins de 800 tokens visuels. En production, DeepSeek-OCR peut générer des données d'entraînement pour les LLMs/VLMs à une échelle de 200k+ pages par jour (avec un seul A100-40G). Les codes et les poids du modèle sont accessibles publiquement à l'adresse http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of
compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two
components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically,
DeepEncoder serves as the core engine, designed to maintain low activations
under high-resolution input while achieving high compression ratios to ensure
an optimal and manageable number of vision tokens. Experiments show that when
the number of text tokens is within 10 times that of vision tokens (i.e., a
compression ratio < 10x), the model can achieve decoding (OCR) precision of
97%. Even at a compression ratio of 20x, the OCR accuracy still remains at
about 60%. This shows considerable promise for research areas such as
historical long-context compression and memory forgetting mechanisms in LLMs.
Beyond this, DeepSeek-OCR also demonstrates high practical value. On
OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision
tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while
utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can
generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a
single A100-40G). Codes and model weights are publicly accessible at
http://github.com/deepseek-ai/DeepSeek-OCR.