ChatPaper.aiChatPaper

DeepSeek-OCR 2: Visueller Kausaler Fluss

DeepSeek-OCR 2: Visual Causal Flow

January 28, 2026
papers.authors: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

papers.abstract

Wir stellen DeepSeek-OCR 2 vor, um die Machbarkeit eines neuartigen Encoders – DeepEncoder V2 – zu untersuchen, der in der Lage ist, visuelle Tokens dynamisch anhand der Bildsemantik neu anzuordnen. Konventionelle Vision-Language-Modelle (VLMs) verarbeiten visuelle Tokens stets in einer starren Raster-Scan-Reihenfolge (von oben links nach unten rechts) mit festen Positionskodierungen, wenn sie in LLMs eingespeist werden. Dies widerspricht jedoch der menschlichen visuellen Wahrnehmung, die flexiblen, aber semantisch kohärenten Abtastmustern folgt, die von inhärenten logischen Strukturen gesteuert werden. Insbesondere bei Bildern mit komplexen Layouts zeigt das menschliche Sehen eine kausal informierte sequentielle Verarbeitung. Inspiriert von diesem kognitiven Mechanismus ist DeepEncoder V2 darauf ausgelegt, dem Encoder kausale Reasoning-Fähigkeiten zu verleihen, sodass er visuelle Tokens intelligent neu anordnen kann, bevor eine LLM-gestützte Inhaltsinterpretation erfolgt. Diese Arbeit erforscht ein neuartiges Paradigma: ob 2D-Bildverständnis effektiv durch zwei kaskadierte 1D-kausale Reasoning-Strukturen erreicht werden kann, und bietet damit einen neuen architektonischen Ansatz mit dem Potenzial, echtes 2D-Reasoning zu erreichen. Codes und Modellgewichte sind öffentlich zugänglich unter http://github.com/deepseek-ai/DeepSeek-OCR-2.
English
We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.
PDF253January 30, 2026