DeepSeek-OCR: Contextuele Optische Compressie
DeepSeek-OCR: Contexts Optical Compression
October 21, 2025
Auteurs: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI
Samenvatting
We presenteren DeepSeek-OCR als een eerste onderzoek naar de haalbaarheid van het comprimeren van lange contexten via optische 2D-mapping. DeepSeek-OCR bestaat uit twee componenten: DeepEncoder en DeepSeek3B-MoE-A570M als decoder. Specifiek fungeert DeepEncoder als de kernengine, ontworpen om lage activeringen te behouden bij hoogresolutie-invoer, terwijl hoge compressieverhoudingen worden bereikt om een optimaal en beheersbaar aantal visuele tokens te garanderen. Experimenten tonen aan dat wanneer het aantal teksttokens binnen 10 keer het aantal visuele tokens ligt (d.w.z. een compressieverhouding < 10x), het model een decodeerprecisie (OCR) van 97% kan bereiken. Zelfs bij een compressieverhouding van 20x blijft de OCR-nauwkeurigheid ongeveer 60%. Dit toont aanzienlijke belofte voor onderzoeksgebieden zoals historische lang-contextcompressie en geheugenvergetingsmechanismen in LLM's. Daarnaast toont DeepSeek-OCR ook een hoge praktische waarde. Op OmniDocBench overtreft het GOT-OCR2.0 (256 tokens/pagina) met slechts 100 visuele tokens, en presteert het beter dan MinerU2.0 (gemiddeld 6000+ tokens per pagina) terwijl het minder dan 800 visuele tokens gebruikt. In productie kan DeepSeek-OCR trainingsdata genereren voor LLM's/VLM's op een schaal van 200k+ pagina's per dag (een enkele A100-40G). Codes en modelgewichten zijn publiek toegankelijk op http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of
compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two
components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically,
DeepEncoder serves as the core engine, designed to maintain low activations
under high-resolution input while achieving high compression ratios to ensure
an optimal and manageable number of vision tokens. Experiments show that when
the number of text tokens is within 10 times that of vision tokens (i.e., a
compression ratio < 10x), the model can achieve decoding (OCR) precision of
97%. Even at a compression ratio of 20x, the OCR accuracy still remains at
about 60%. This shows considerable promise for research areas such as
historical long-context compression and memory forgetting mechanisms in LLMs.
Beyond this, DeepSeek-OCR also demonstrates high practical value. On
OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision
tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while
utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can
generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a
single A100-40G). Codes and model weights are publicly accessible at
http://github.com/deepseek-ai/DeepSeek-OCR.