ChatPaper.aiChatPaper

DeepSeek-OCR: Compressione Ottica dei Contesti

DeepSeek-OCR: Contexts Optical Compression

October 21, 2025
Autori: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

Abstract

Presentiamo DeepSeek-OCR come un’indagine iniziale sulla fattibilità della compressione di contesti lunghi tramite mappatura ottica 2D. DeepSeek-OCR è composto da due componenti: DeepEncoder e DeepSeek3B-MoE-A570M come decodificatore. Nello specifico, DeepEncoder funge da motore centrale, progettato per mantenere basse attivazioni con input ad alta risoluzione, raggiungendo al contempo elevati rapporti di compressione per garantire un numero ottimale e gestibile di token visivi. Gli esperimenti dimostrano che quando il numero di token di testo è entro 10 volte quello dei token visivi (ovvero, un rapporto di compressione < 10x), il modello può raggiungere una precisione di decodifica (OCR) del 97%. Anche con un rapporto di compressione di 20x, l’accuratezza OCR rimane intorno al 60%. Ciò mostra un notevole potenziale per aree di ricerca come la compressione di contesti storici lunghi e i meccanismi di dimenticanza nella memoria dei LLM. Oltre a ciò, DeepSeek-OCR dimostra anche un elevato valore pratico. Su OmniDocBench, supera GOT-OCR2.0 (256 token/pagina) utilizzando solo 100 token visivi e supera MinerU2.0 (in media oltre 6000 token per pagina) utilizzando meno di 800 token visivi. In produzione, DeepSeek-OCR può generare dati di addestramento per LLM/VLM su una scala di oltre 200.000 pagine al giorno (con una singola A100-40G). I codici e i pesi del modello sono accessibili pubblicamente all’indirizzo http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically, DeepEncoder serves as the core engine, designed to maintain low activations under high-resolution input while achieving high compression ratios to ensure an optimal and manageable number of vision tokens. Experiments show that when the number of text tokens is within 10 times that of vision tokens (i.e., a compression ratio < 10x), the model can achieve decoding (OCR) precision of 97%. Even at a compression ratio of 20x, the OCR accuracy still remains at about 60%. This shows considerable promise for research areas such as historical long-context compression and memory forgetting mechanisms in LLMs. Beyond this, DeepSeek-OCR also demonstrates high practical value. On OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a single A100-40G). Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR.
PDF252October 22, 2025