DeepSeek-OCR 2: Visuele Causale Stroom

Samenvatting

Wij presenteren DeepSeek-OCR 2 om de haalbaarheid te onderzoeken van een nieuwe encoder – DeepEncoder V2 – die in staat is om visuele tokens dynamisch te herordenen op basis van beeld semantiek. Conventionele vision-language modellen (VLM's) verwerken visuele tokens steevast in een rigide raster-scan volgorde (van linksboven naar rechtsonder) met vaste positionele codering wanneer ze aan grote taalmodellen (LLM's) worden gevoed. Dit staat echter haaks op de menselijke visuele perceptie, die flexibele maar semantisch coherente scanpatronen volgt, gedreven door inherente logische structuren. Vooral bij afbeeldingen met complexe lay-outs vertoont het menselijk visueel systeem een causaal-gestuurde sequentiële verwerking. Geïnspireerd door dit cognitieve mechanisme is DeepEncoder V2 ontworpen om de encoder te voorzien van causaal redeneervermogen, waardoor deze visuele tokens intelligent kan herordenen vóór de op LLM gebaseerde contentinterpretatie. Dit werk verkent een nieuw paradigma: of 2D-beeldbegrip effectief kan worden bereikt via twee gecascadeerde 1D causale redeneerstructuren, waardoor een nieuwe architecturale benadering wordt geboden met het potentieel om echt 2D-redeneren te realiseren. Code en modelgewichten zijn openbaar toegankelijk op http://github.com/deepseek-ai/DeepSeek-OCR-2.

English

We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.

DeepSeek-OCR 2: Visuele Causale Stroom

DeepSeek-OCR 2: Visual Causal Flow

Samenvatting

Support