DeepSeek-OCR 2: Fluxo Causal Visual

Resumo

Apresentamos o DeepSeek-OCR 2 para investigar a viabilidade de um novo codificador - DeepEncoder V2 - capaz de reordenar dinamicamente os *tokens* visuais com base na semântica da imagem. Os modelos convencionais de visão e linguagem (VLMs) processam invariavelmente os *tokens* visuais numa ordem rígida de varredura raster (do canto superior esquerdo para o inferior direito) com codificação posicional fixa quando alimentados em LLMs. No entanto, isto contradiz a perceção visual humana, que segue padrões de varredura flexíveis, mas semanticamente coerentes, orientados por estruturas lógicas inerentes. Particularmente para imagens com layouts complexos, a visão humana exibe um processamento sequencial causalmente informado. Inspirado por este mecanismo cognitivo, o DeepEncoder V2 foi concebido para dotar o codificador de capacidades de raciocínio causal, permitindo-lhe reordenar inteligentemente os *tokens* visuais antes da interpretação do conteúdo baseada em LLM. Este trabalho explora um novo paradigma: se a compreensão de imagens 2D pode ser efetivamente alcançada através de duas estruturas de raciocínio causal 1D em cascata, oferecendo assim uma nova abordagem arquitetónica com potencial para alcançar um genuíno raciocínio 2D. Os códigos e os pesos do modelo estão publicamente acessíveis em http://github.com/deepseek-ai/DeepSeek-OCR-2.

English

We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.