ChatPaper.aiChatPaper

DeepSeek-OCR 2 : Flux Causal Visuel

DeepSeek-OCR 2: Visual Causal Flow

January 28, 2026
papers.authors: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

papers.abstract

Nous présentons DeepSeek-OCR 2 afin d'étudier la faisabilité d'un nouvel encodeur - DeepEncoder V2 - capable de réordonner dynamiquement les tokens visuels selon la sémantique de l'image. Les modèles vision-langage (VLM) conventionnels traitent invariablement les tokens visuels selon un ordre rigide de balayage raster (haut-gauche vers bas-droit) avec un encodage positionnel fixe lorsqu'ils sont introduits dans les LLM. Cependant, cela contredit la perception visuelle humaine, qui suit des schémas de balayage flexibles mais sémantiquement cohérents, guidés par des structures logiques inhérentes. Particulièrement pour les images aux compositions complexes, la vision humaine présente un traitement séquentiel informé par la causalité. Inspiré par ce mécanisme cognitif, DeepEncoder V2 est conçu pour doter l'encodeur de capacités de raisonnement causal, lui permettant de réordonner intelligemment les tokens visuels avant l'interprétation du contenu par le LLM. Ce travail explore un nouveau paradigme : la compréhension d'images 2D peut-elle être efficacement réalisée via deux structures de raisonnement causal 1D en cascade, offrant ainsi une nouvelle approche architecturale ayant le potentiel d'atteindre un véritable raisonnement 2D. Les codes et les poids des modèles sont librement accessibles à l'adresse http://github.com/deepseek-ai/DeepSeek-OCR-2.
English
We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.
PDF253January 30, 2026