ChatPaper.aiChatPaper

DeepSeek-OCR: コンテキスト光学的圧縮

DeepSeek-OCR: Contexts Optical Compression

October 21, 2025
著者: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

要旨

本研究では、長文脈を光学的2Dマッピングにより圧縮する可能性を探るための初期調査として、DeepSeek-OCRを提案する。DeepSeek-OCRは、DeepEncoderとデコーダーとしてのDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。具体的には、DeepEncoderはコアエンジンとして機能し、高解像度入力下での低アクティベーションを維持しつつ、高い圧縮率を達成して視覚トークンの数を最適かつ管理可能な範囲に保つように設計されている。実験結果によると、テキストトークン数が視覚トークン数の10倍以内(つまり圧縮率が10倍未満)の場合、モデルは97%のデコード(OCR)精度を達成できる。圧縮率が20倍の場合でも、OCR精度は約60%を維持する。これは、歴史的な長文脈圧縮やLLMにおける記憶忘却メカニズムなどの研究分野において、非常に有望な結果を示している。さらに、DeepSeek-OCRは高い実用性も示している。OmniDocBenchにおいて、100視覚トークンしか使用せずにGOT-OCR2.0(256トークン/ページ)を上回り、800視覚トークン未満でMinerU2.0(平均6000+トークン/ページ)を凌駕する。実際の運用では、DeepSeek-OCRは1台のA100-40Gで1日あたり20万ページ以上のLLM/VLM用トレーニングデータを生成できる。コードとモデルウェイトはhttp://github.com/deepseek-ai/DeepSeek-OCRで公開されている。
English
We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically, DeepEncoder serves as the core engine, designed to maintain low activations under high-resolution input while achieving high compression ratios to ensure an optimal and manageable number of vision tokens. Experiments show that when the number of text tokens is within 10 times that of vision tokens (i.e., a compression ratio < 10x), the model can achieve decoding (OCR) precision of 97%. Even at a compression ratio of 20x, the OCR accuracy still remains at about 60%. This shows considerable promise for research areas such as historical long-context compression and memory forgetting mechanisms in LLMs. Beyond this, DeepSeek-OCR also demonstrates high practical value. On OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a single A100-40G). Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR.
PDF252October 22, 2025