DeepSeek-OCR: 컨텍스트 기반 광학 압축
DeepSeek-OCR: Contexts Optical Compression
October 21, 2025
저자: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI
초록
우리는 광학적 2D 매핑을 통해 긴 문맥을 압축하는 가능성을 탐구하기 위한 초기 연구로 DeepSeek-OCR을 제안합니다. DeepSeek-OCR은 두 가지 구성 요소로 이루어져 있습니다: DeepEncoder와 디코더 역할을 하는 DeepSeek3B-MoE-A570M입니다. 구체적으로, DeepEncoder는 핵심 엔진으로서 고해상도 입력에서도 낮은 활성화를 유지하면서 높은 압축 비율을 달성하여 최적의 관리 가능한 수준의 시각 토큰을 보장하도록 설계되었습니다. 실험 결과, 텍스트 토큰 수가 시각 토큰 수의 10배 이내(즉, 압축 비율 < 10x)일 때 모델은 97%의 디코딩(OCR) 정확도를 달성할 수 있음을 보여줍니다. 압축 비율이 20x일 때도 OCR 정확도는 약 60%를 유지합니다. 이는 역사적 장문맥 압축 및 LLM(대형 언어 모델)의 메모리 망각 메커니즘과 같은 연구 분야에서 상당한 가능성을 보여줍니다. 더 나아가, DeepSeek-OCR은 높은 실용적 가치도 입증합니다. OmniDocBench에서, DeepSeek-OCR은 단 100개의 시각 토큰만으로 GOT-OCR2.0(페이지당 256 토큰)을 능가하며, MinerU2.0(평균 페이지당 6000개 이상의 토큰)보다 우수한 성능을 보이면서도 800개 미만의 시각 토큰을 사용합니다. 실제 생산 환경에서 DeepSeek-OCR은 단일 A100-40G GPU로 하루에 20만 페이지 이상의 LLM/VLM(대형 언어 모델/시각 언어 모델) 훈련 데이터를 생성할 수 있습니다. 코드와 모델 가중치는 http://github.com/deepseek-ai/DeepSeek-OCR에서 공개적으로 접근 가능합니다.
English
We present DeepSeek-OCR as an initial investigation into the feasibility of
compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two
components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically,
DeepEncoder serves as the core engine, designed to maintain low activations
under high-resolution input while achieving high compression ratios to ensure
an optimal and manageable number of vision tokens. Experiments show that when
the number of text tokens is within 10 times that of vision tokens (i.e., a
compression ratio < 10x), the model can achieve decoding (OCR) precision of
97%. Even at a compression ratio of 20x, the OCR accuracy still remains at
about 60%. This shows considerable promise for research areas such as
historical long-context compression and memory forgetting mechanisms in LLMs.
Beyond this, DeepSeek-OCR also demonstrates high practical value. On
OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision
tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while
utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can
generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a
single A100-40G). Codes and model weights are publicly accessible at
http://github.com/deepseek-ai/DeepSeek-OCR.