DeepSeek-OCR 2: 視覚的因果フロー
DeepSeek-OCR 2: Visual Causal Flow
January 28, 2026
著者: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI
要旨
我々はDeepSeek-OCR 2を発表し、画像の意味構造に基づいて視覚トークンを動的に並べ替え可能な新しいエンコーダ「DeepEncoder V2」の実現可能性を探る。従来の視覚言語モデル(VLM)は、LLMに入力する際、視覚トークンを固定的なラスタースキャン順(左上から右下)で処理し、固定の位置エンコーディングを適用してきた。しかしこれは、内在的な論理構造に駆動された柔軟かつ意味的に一貫した走査パターンに従う人間の視覚知覚とは相容れない。特に複雑なレイアウトを持つ画像において、人間の視覚は因果関係を考慮した逐次処理を示す。この認知メカニズムに着想を得て、DeepEncoder V2はエンコーダに因果推論能力を付与し、LLMベースの内容解釈の前に視覚トークンを智能的に並べ替えることを可能にする。本研究は、2段階の1次元因果推論構造を通じて2次元画像理解を効果的に達成できるかという新たなパラダイムを探求し、真の2次元推論を実現する可能性を秘めた新しいアーキテクチャ手法を提案する。コードとモデル重みはhttp://github.com/deepseek-ai/DeepSeek-OCR-2で公開されている。
English
We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.