ChatPaper.aiChatPaper

DeepSeek-OCR: Kontextuelle optische Kompression

DeepSeek-OCR: Contexts Optical Compression

October 21, 2025
papers.authors: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

papers.abstract

Wir präsentieren DeepSeek-OCR als eine erste Untersuchung zur Machbarkeit der Kompression langer Kontexte durch optisches 2D-Mapping. DeepSeek-OCR besteht aus zwei Komponenten: DeepEncoder und DeepSeek3B-MoE-A570M als Decoder. Insbesondere dient DeepEncoder als Kernmaschine, die darauf ausgelegt ist, niedrige Aktivierungen bei hochauflösenden Eingaben beizubehalten, während hohe Kompressionsraten erreicht werden, um eine optimale und handhabbare Anzahl von Vision-Tokens zu gewährleisten. Experimente zeigen, dass, wenn die Anzahl der Text-Tokens innerhalb des Zehnfachen der Vision-Tokens liegt (d. h. eine Kompressionsrate < 10x), das Modell eine Decodierungsgenauigkeit (OCR) von 97 % erreichen kann. Selbst bei einer Kompressionsrate von 20x bleibt die OCR-Genauigkeit bei etwa 60 %. Dies zeigt beträchtliches Potenzial für Forschungsbereiche wie die Kompression historischer Langkontexte und Vergessensmechanismen in LLMs. Darüber hinaus demonstriert DeepSeek-OCR auch einen hohen praktischen Wert. Auf OmniDocBench übertrifft es GOT-OCR2.0 (256 Tokens/Seite) mit nur 100 Vision-Tokens und übertrifft MinerU2.0 (durchschnittlich 6000+ Tokens pro Seite), während weniger als 800 Vision-Tokens verwendet werden. In der Produktion kann DeepSeek-OCR Trainingsdaten für LLMs/VLMs in einem Umfang von 200.000+ Seiten pro Tag (eine einzelne A100-40G) generieren. Codes und Modellgewichte sind öffentlich zugänglich unter http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically, DeepEncoder serves as the core engine, designed to maintain low activations under high-resolution input while achieving high compression ratios to ensure an optimal and manageable number of vision tokens. Experiments show that when the number of text tokens is within 10 times that of vision tokens (i.e., a compression ratio < 10x), the model can achieve decoding (OCR) precision of 97%. Even at a compression ratio of 20x, the OCR accuracy still remains at about 60%. This shows considerable promise for research areas such as historical long-context compression and memory forgetting mechanisms in LLMs. Beyond this, DeepSeek-OCR also demonstrates high practical value. On OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a single A100-40G). Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR.
PDF252October 22, 2025