Catena di Pensiero Visivo: Insegnare ai VLM a Vedere e Pensare Meglio con Token Visivi Continui
Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
November 24, 2025
Autori: Yiming Qin, Bomin Wei, Jiaxin Ge, Konstantinos Kallidromitis, Stephanie Fu, Trevor Darrell, Xudong Wang
cs.AI
Abstract
I modelli visione-linguaggio (VLM) eccellono nel ragionamento nello spazio linguistico ma faticano nella comprensione percettiva che richiede una percezione visiva densa, ad esempio il ragionamento spaziale e la consapevolezza geometrica. Questa limitazione deriva dal fatto che gli attuali VLM hanno meccanismi limitati per catturare informazioni visive dense attraverso le dimensioni spaziali. Introduciamo Chain-of-Visual-Thought (COVT), un framework che consente ai VLM di ragionare non solo in parole ma anche attraverso token visivi continui - rappresentazioni latenti compatte che codificano ricchi indizi percettivi. Con un budget ridotto di circa 20 token, COVT distilla la conoscenza da esperti visivi leggeri, catturando proprietà complementari come l'aspetto 2D, la geometria 3D, il layout spaziale e la struttura dei bordi. Durante l'addestramento, il VLM con COVT predice autoregressivamente questi token visivi per ricostruire segnali di supervisione densi (ad esempio, profondità, segmentazione, bordi e feature DINO). In fase di inferenza, il modello ragiona direttamente nello spazio continuo dei token visivi, preservando l'efficienza mentre opzionalmente decodifica predizioni dense per l'interpretabilità. Valutato su oltre dieci benchmark percettivi diversificati, tra cui CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA e HRBench, l'integrazione di COVT in VLM robusti come Qwen2.5-VL e LLaVA migliora costantemente le prestazioni dal 3% al 16% e dimostra che il pensiero visivo continuo e compatto abilita un'intelligenza multimodale più precisa, fondata e interpretabile.
English
Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. This limitation stems from the fact that current VLMs have limited mechanisms to capture dense visual information across spatial dimensions. We introduce Chain-of-Visual-Thought (COVT), a framework that enables VLMs to reason not only in words but also through continuous visual tokens-compact latent representations that encode rich perceptual cues. Within a small budget of roughly 20 tokens, COVT distills knowledge from lightweight vision experts, capturing complementary properties such as 2D appearance, 3D geometry, spatial layout, and edge structure. During training, the VLM with COVT autoregressively predicts these visual tokens to reconstruct dense supervision signals (e.g., depth, segmentation, edges, and DINO features). At inference, the model reasons directly in the continuous visual token space, preserving efficiency while optionally decoding dense predictions for interpretability. Evaluated across more than ten diverse perception benchmarks, including CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, and HRBench, integrating COVT into strong VLMs such as Qwen2.5-VL and LLaVA consistently improves performance by 3% to 16% and demonstrates that compact continuous visual thinking enables more precise, grounded, and interpretable multimodal intelligence.