시각적 사고의 연속: 연속적 시각 토큰을 통해 시각 언어 모델의 인식 및 사고 능력 향상
Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
November 24, 2025
저자: Yiming Qin, Bomin Wei, Jiaxin Ge, Konstantinos Kallidromitis, Stephanie Fu, Trevor Darrell, Xudong Wang
cs.AI
초록
비전-언어 모델(VLM)은 언어적 공간에서의 추론에는 뛰어나지만, 공간 추론 및 기하학적 인식과 같이 조밀한 시각적 인식을 요구하는 지각적 이해에는 어려움을 겪습니다. 이러한 한계는 현재 VLM이 공간 차원에 걸친 조밀한 시각 정보를 포착할 수 있는 메커니즘이 제한적이라는 사실에서 비롯됩니다. 본 연구에서는 VLM이 단어뿐만 아니라 연속적인 시각 토큰(풍부한 지각 단서를 인코딩하는 컴팩트한 잠재 표현)을 통해서도 추론할 수 있도록 하는 체인-오브-비주얼-사고(COVT) 프레임워크를 소개합니다. 약 20개의 토큰이라는 작은 예산 내에서 COVT는 경량화된 비전 전문가로부터 지식을 추출하여 2D 외관, 3D 기하학, 공간 배치, 에지 구조 등 상호 보완적인 속성을 포착합니다. 학습 과정에서 COVT를 탑재한 VLM은 이러한 시각 토큰을 자기회귀적으로 예측하여 조밀한 감독 신호(예: 깊이, 분할, 에지, DINO 특징)를 재구성합니다. 추론 시에는 모델이 연속적인 시각 토큰 공간에서 직접 추론하여 효율성을 유지하면서, 필요에 따라 해석 가능성을 위해 조밀한 예측 결과를 디코딩합니다. CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, HRBench 등 10개 이상의 다양한 인식 벤치마크에서 평가한 결과, Qwen2.5-VL 및 LLaVA와 같은 강력한 VLM에 COVT를 통합하면 성능이 3%에서 16%까지 지속적으로 향상되며, 컴팩트한 연속적 시각 사고가 더 정확하고 근거 있으며 해석 가능한 다중모달 인텔리전스를 가능하게 함을 입증했습니다.
English
Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. This limitation stems from the fact that current VLMs have limited mechanisms to capture dense visual information across spatial dimensions. We introduce Chain-of-Visual-Thought (COVT), a framework that enables VLMs to reason not only in words but also through continuous visual tokens-compact latent representations that encode rich perceptual cues. Within a small budget of roughly 20 tokens, COVT distills knowledge from lightweight vision experts, capturing complementary properties such as 2D appearance, 3D geometry, spatial layout, and edge structure. During training, the VLM with COVT autoregressively predicts these visual tokens to reconstruct dense supervision signals (e.g., depth, segmentation, edges, and DINO features). At inference, the model reasons directly in the continuous visual token space, preserving efficiency while optionally decoding dense predictions for interpretability. Evaluated across more than ten diverse perception benchmarks, including CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, and HRBench, integrating COVT into strong VLMs such as Qwen2.5-VL and LLaVA consistently improves performance by 3% to 16% and demonstrates that compact continuous visual thinking enables more precise, grounded, and interpretable multimodal intelligence.