ChatPaper.aiChatPaper

DeepSeek-OCR: Контекстное оптическое сжатие

DeepSeek-OCR: Contexts Optical Compression

October 21, 2025
Авторы: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

Аннотация

Мы представляем DeepSeek-OCR как начальное исследование возможности сжатия длинных контекстов с помощью оптического 2D-отображения. DeepSeek-OCR состоит из двух компонентов: DeepEncoder и DeepSeek3B-MoE-A570M в качестве декодера. В частности, DeepEncoder служит основным движком, разработанным для поддержания низких активаций при высоком разрешении входных данных, одновременно достигая высоких коэффициентов сжатия, чтобы обеспечить оптимальное и управляемое количество визуальных токенов. Эксперименты показывают, что когда количество текстовых токенов не превышает 10-кратного количества визуальных токенов (т.е. коэффициент сжатия < 10x), модель может достичь точности декодирования (OCR) в 97%. Даже при коэффициенте сжатия 20x точность OCR остается на уровне около 60%. Это демонстрирует значительный потенциал для таких областей исследований, как сжатие длинных исторических контекстов и механизмы забывания в больших языковых моделях (LLM). Кроме того, DeepSeek-OCR также демонстрирует высокую практическую ценность. На OmniDocBench он превосходит GOT-OCR2.0 (256 токенов на страницу), используя всего 100 визуальных токенов, и опережает MinerU2.0 (в среднем более 6000 токенов на страницу), используя менее 800 визуальных токенов. В производственных условиях DeepSeek-OCR может генерировать обучающие данные для LLM/VLM в масштабе 200+ тысяч страниц в день (на одной A100-40G). Коды и веса модели доступны публично по адресу http://github.com/deepseek-ai/DeepSeek-OCR.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically, DeepEncoder serves as the core engine, designed to maintain low activations under high-resolution input while achieving high compression ratios to ensure an optimal and manageable number of vision tokens. Experiments show that when the number of text tokens is within 10 times that of vision tokens (i.e., a compression ratio < 10x), the model can achieve decoding (OCR) precision of 97%. Even at a compression ratio of 20x, the OCR accuracy still remains at about 60%. This shows considerable promise for research areas such as historical long-context compression and memory forgetting mechanisms in LLMs. Beyond this, DeepSeek-OCR also demonstrates high practical value. On OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a single A100-40G). Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR.
PDF252October 22, 2025