ChatPaper.aiChatPaper

DeepSeek-OCR 2: Визуальный причинно-следственный поток

DeepSeek-OCR 2: Visual Causal Flow

January 28, 2026
Авторы: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

Аннотация

Мы представляем DeepSeek-OCR 2 для исследования возможности применения нового энкодера DeepEncoder V2, способного динамически переупорядочивать визуальные токены на основе семантики изображения. Традиционные модели «визуальный язык» (VLMs) неизменно обрабатывают визуальные токены в жестком порядке растеризации (слева направо, сверху вниз) с фиксированным позиционным кодированием при подаче в большие языковые модели (LLMs). Однако это противоречит человеческому визуальному восприятию, которое следует гибким, но семантически связным паттернам сканирования, управляемым внутренними логическими структурами. В частности, для изображений со сложной компоновкой человеческое зрение демонстрирует последовательную обработку, основанную на причинно-следственных связях. Вдохновленные этим когнитивным механизмом, мы разработали DeepEncoder V2, чтобы наделить энкодер способностями к каузальным рассуждениям, позволяя ему интеллектуально переупорядочивать визуальные токены до интерпретации содержимого на основе LLM. Данная работа исследует новую парадигму: может ли понимание 2D-изображений быть эффективно достигнуто с помощью двух каскадированных структур 1D каузальных рассуждений, предлагая таким образом новый архитектурный подход с потенциалом для достижения подлинного 2D-мышления. Код и веса модели общедоступны по адресу http://github.com/deepseek-ai/DeepSeek-OCR-2.
English
We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.
PDF253January 30, 2026