DeepSeek-OCR 2: Flusso Causale Visivo

Abstract

Presentiamo DeepSeek-OCR 2 per indagare la fattibilità di un nuovo encoder - DeepEncoder V2 - in grado di riordinare dinamicamente i token visivi in base alla semantica dell'immagine. I modelli visione-linguaggio (VLM) convenzionali elaborano invariabilmente i token visivi secondo un rigido ordine di scansione raster (dall'alto a sinistra verso il basso a destra) con codifica posizionale fissa quando vengono forniti agli LLM. Tuttavia, ciò contrasta con la percezione visiva umana, che segue modelli di scansione flessibili ma semanticamente coerenti guidati da strutture logiche intrinseche. In particolare per le immagini con layout complessi, la visione umana mostra un'elaborazione sequenziale causalmente informata. Ispirati da questo meccanismo cognitivo, abbiamo progettato DeepEncoder V2 per dotare l'encoder di capacità di ragionamento causale, consentendogli di riordinare intelligentemente i token visivi prima dell'interpretazione del contenuto basata sugli LLM. Questo lavoro esplora un nuovo paradigma: se la comprensione di immagini 2D possa essere efficacemente raggiunta attraverso due strutture di ragionamento causale 1D in cascata, offrendo così un nuovo approccio architetturale con il potenziale per raggiungere un vero ragionamento 2D. I codici e i pesi del modello sono pubblicamente accessibili all'indirizzo http://github.com/deepseek-ai/DeepSeek-OCR-2.

English

We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.

DeepSeek-OCR 2: Flusso Causale Visivo

DeepSeek-OCR 2: Visual Causal Flow

Abstract

Support