ChatPaper.aiChatPaper

DeepSeek-OCR 2: 시각적 인과 흐름

DeepSeek-OCR 2: Visual Causal Flow

January 28, 2026
저자: Haoran Wei, Yaofeng Sun, Yukun Li
cs.AI

초록

이미지 의미론에 따라 시각적 토큰을 동적으로 재정렬할 수 있는 새로운 인코더인 DeepEncoder V2의 가능성을 탐구하기 위해 DeepSeek-OCR 2를 제안한다. 기존 시각-언어 모델(VLM)은 LLM에 입력될 때 시각적 토큰을 고정된 위치 인코딩과 함께 엄격한 래스터 스캔 순서(좌상단에서 우하단)로 처리한다. 그러나 이는 고유한 논리적 구조에 의해 주도되는 유연하면서도 의미론적으로 일관된 스캐닝 패턴을 따르는 인간의 시각 인식과 상충된다. 특히 복잡한 레이아웃을 가진 이미지의 경우 인간의 시각은 인과관계를 고려한 순차적 처리를 보인다. 이러한 인지 메커니즘에서 영감을 받아 DeepEncoder V2는 인코더에 인과 추론 능력을 부여하도록 설계되어, LLM 기반 내용 해석 전에 시각적 토큰을 지능적으로 재정렬할 수 있다. 본 연구는 2D 이미지 이해가 두 개의 계단식 1D 인과 추론 구조를 통해 효과적으로 달성될 수 있는지 여부를 탐구하는 새로운 패러다임을 제시함으로써, 진정한 2D 추론을 달성할 잠재력을 가진 새로운 아키텍처 접근법을 제공한다. 코드와 모델 가중치는 http://github.com/deepseek-ai/DeepSeek-OCR-2에서 공개적으로 접근 가능하다.
English
We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.
PDF253January 30, 2026