DeepSeek-OCR: Compressão Óptica Contextual
DeepSeek-OCR: Contexts Optical Compression
October 21, 2025
Autores: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI
Resumo
Apresentamos o DeepSeek-OCR como uma investigação inicial sobre a viabilidade de comprimir contextos longos por meio de mapeamento óptico 2D. O DeepSeek-OCR consiste em dois componentes: o DeepEncoder e o DeepSeek3B-MoE-A570M como decodificador. Especificamente, o DeepEncoder serve como o núcleo principal, projetado para manter baixas ativações sob entradas de alta resolução enquanto alcança altas taxas de compressão para garantir um número ideal e gerenciável de tokens visuais. Experimentos mostram que, quando o número de tokens de texto está dentro de 10 vezes o número de tokens visuais (ou seja, uma taxa de compressão < 10x), o modelo pode alcançar uma precisão de decodificação (OCR) de 97%. Mesmo com uma taxa de compressão de 20x, a precisão do OCR ainda permanece em cerca de 60%. Isso mostra um potencial considerável para áreas de pesquisa como compressão de contextos históricos longos e mecanismos de esquecimento de memória em LLMs. Além disso, o DeepSeek-OCR também demonstra alto valor prático. No OmniDocBench, ele supera o GOT-OCR2.0 (256 tokens/página) usando apenas 100 tokens visuais, e supera o MinerU2.0 (6000+ tokens por página em média) enquanto utiliza menos de 800 tokens visuais. Em produção, o DeepSeek-OCR pode gerar dados de treinamento para LLMs/VLMs em uma escala de 200k+ páginas por dia (um único A100-40G). Códigos e pesos do modelo estão publicamente acessíveis em http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of
compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two
components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically,
DeepEncoder serves as the core engine, designed to maintain low activations
under high-resolution input while achieving high compression ratios to ensure
an optimal and manageable number of vision tokens. Experiments show that when
the number of text tokens is within 10 times that of vision tokens (i.e., a
compression ratio < 10x), the model can achieve decoding (OCR) precision of
97%. Even at a compression ratio of 20x, the OCR accuracy still remains at
about 60%. This shows considerable promise for research areas such as
historical long-context compression and memory forgetting mechanisms in LLMs.
Beyond this, DeepSeek-OCR also demonstrates high practical value. On
OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision
tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while
utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can
generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a
single A100-40G). Codes and model weights are publicly accessible at
http://github.com/deepseek-ai/DeepSeek-OCR.