DeepSeek-OCR: Compresión Óptica Contextual
DeepSeek-OCR: Contexts Optical Compression
October 21, 2025
Autores: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI
Resumen
Presentamos DeepSeek-OCR como una investigación inicial sobre la viabilidad de comprimir contextos largos mediante mapeo óptico 2D. DeepSeek-OCR consta de dos componentes: DeepEncoder y DeepSeek3B-MoE-A570M como decodificador. Específicamente, DeepEncoder sirve como el motor central, diseñado para mantener bajas activaciones con entradas de alta resolución mientras logra altas tasas de compresión para garantizar un número óptimo y manejable de tokens visuales. Los experimentos muestran que cuando el número de tokens de texto es hasta 10 veces mayor que el de tokens visuales (es decir, una tasa de compresión < 10x), el modelo puede alcanzar una precisión de decodificación (OCR) del 97%. Incluso con una tasa de compresión de 20x, la precisión de OCR se mantiene en aproximadamente un 60%. Esto muestra un gran potencial para áreas de investigación como la compresión de contextos históricos largos y los mecanismos de olvido en LLMs. Más allá de esto, DeepSeek-OCR también demuestra un alto valor práctico. En OmniDocBench, supera a GOT-OCR2.0 (256 tokens/página) utilizando solo 100 tokens visuales, y supera a MinerU2.0 (6000+ tokens por página en promedio) mientras utiliza menos de 800 tokens visuales. En producción, DeepSeek-OCR puede generar datos de entrenamiento para LLMs/VLMs a una escala de más de 200k páginas por día (con una sola A100-40G). Los códigos y los pesos del modelo son de acceso público en http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of
compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two
components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically,
DeepEncoder serves as the core engine, designed to maintain low activations
under high-resolution input while achieving high compression ratios to ensure
an optimal and manageable number of vision tokens. Experiments show that when
the number of text tokens is within 10 times that of vision tokens (i.e., a
compression ratio < 10x), the model can achieve decoding (OCR) precision of
97%. Even at a compression ratio of 20x, the OCR accuracy still remains at
about 60%. This shows considerable promise for research areas such as
historical long-context compression and memory forgetting mechanisms in LLMs.
Beyond this, DeepSeek-OCR also demonstrates high practical value. On
OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision
tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while
utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can
generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a
single A100-40G). Codes and model weights are publicly accessible at
http://github.com/deepseek-ai/DeepSeek-OCR.