Cadeia de Pensamento Visual: Ensinando VLMs a Ver e Pensar Melhor com Tokens Visuais Contínuos

Resumo

Os modelos visão-linguagem (VLMs) destacam-se no raciocínio no espaço linguístico, mas enfrentam dificuldades na compreensão perceptual que requer percepção visual densa, por exemplo, raciocínio espacial e consciência geométrica. Esta limitação decorre do fato de que os VLMs atuais possuem mecanismos limitados para capturar informações visuais densas através das dimensões espaciais. Apresentamos a Cadeia-de-Pensamento-Visual (COVT), uma estrutura que permite aos VLMs raciocinar não apenas em palavras, mas também através de tokens visuais contínuos - representações latentes compactas que codificam pistas perceptuais ricas. Dentro de um orçamento reduzido de aproximadamente 20 tokens, a COVT destila conhecimento de especialistas visuais leves, capturando propriedades complementares como aparência 2D, geometria 3D, layout espacial e estrutura de bordas. Durante o treinamento, o VLM com COVT prevê autoregressivamente esses tokens visuais para reconstruir sinais de supervisão densa (por exemplo, profundidade, segmentação, bordas e características DINO). Na inferência, o modelo raciocina diretamente no espaço contínuo de tokens visuais, preservando a eficiência enquanto opcionalmente decodifica previsões densas para interpretabilidade. Avaliado em mais de dez benchmarks de percepção diversos, incluindo CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA e HRBench, a integração da COVT em VLMs robustos como Qwen2.5-VL e LLaVA melhora consistentemente o desempenho em 3% a 16% e demonstra que o pensamento visual contínuo e compacto permite uma inteligência multimodal mais precisa, fundamentada e interpretável.

English

Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. This limitation stems from the fact that current VLMs have limited mechanisms to capture dense visual information across spatial dimensions. We introduce Chain-of-Visual-Thought (COVT), a framework that enables VLMs to reason not only in words but also through continuous visual tokens-compact latent representations that encode rich perceptual cues. Within a small budget of roughly 20 tokens, COVT distills knowledge from lightweight vision experts, capturing complementary properties such as 2D appearance, 3D geometry, spatial layout, and edge structure. During training, the VLM with COVT autoregressively predicts these visual tokens to reconstruct dense supervision signals (e.g., depth, segmentation, edges, and DINO features). At inference, the model reasons directly in the continuous visual token space, preserving efficiency while optionally decoding dense predictions for interpretability. Evaluated across more than ten diverse perception benchmarks, including CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, and HRBench, integrating COVT into strong VLMs such as Qwen2.5-VL and LLaVA consistently improves performance by 3% to 16% and demonstrates that compact continuous visual thinking enables more precise, grounded, and interpretable multimodal intelligence.

Cadeia de Pensamento Visual: Ensinando VLMs a Ver e Pensar Melhor com Tokens Visuais Contínuos

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

Resumo

Support