ChatPaper.aiChatPaper

連鎖的視覚思考:連続的視覚トークンによる視覚言語モデルのより優れた認識と思考の実現

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

November 24, 2025
著者: Yiming Qin, Bomin Wei, Jiaxin Ge, Konstantinos Kallidromitis, Stephanie Fu, Trevor Darrell, Xudong Wang
cs.AI

要旨

視覚言語モデル(VLM)は言語空間における推論に優れる一方、空間推論や幾何学的認識など、密な視覚的知覚を要する知覚的理解には課題を抱えています。この制約は、現在のVLMが空間次元にわたる密な視覚情報を捕捉する機構に限界があることに起因します。本論文ではChain-of-Visual-Thought(COVT)を提案します。このフレームワークにより、VLMは単語による推論に加えて、連続的な視覚トークン——豊富な知覚手がかりを符号化したコンパクトな潜在表現——を通じた推論が可能になります。約20トークンという少ないコスト範囲内で、COVTは軽量な視覚専門家モデルから知識を蒸留し、2D外観・3D形状・空間配置・エッジ構造といった相補的特性を捕捉します。訓練時には、COVTを統合したVLMがこれらの視覚トークンを自己回帰的に予測し、密な教師信号(深度、セグメンテーション、エッジ、DINO特徴量など)を再構築します。推論時にはモデルは連続視覚トークン空間で直接推論を行い、効率性を保ちつつ、解釈可能性のために必要に応じて密な予測をデコードします。CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA、HRBenchなど10以上の多様な知覚ベンチマークによる評価では、Qwen2.5-VLやLLaVAといった強力なVLMにCOVTを統合することで、一貫して3%から16%の性能向上が確認され、コンパクトな連続的視覚思考がより精密で接地された解釈可能なマルチモーダル知能を実現することを実証しました。
English
Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. This limitation stems from the fact that current VLMs have limited mechanisms to capture dense visual information across spatial dimensions. We introduce Chain-of-Visual-Thought (COVT), a framework that enables VLMs to reason not only in words but also through continuous visual tokens-compact latent representations that encode rich perceptual cues. Within a small budget of roughly 20 tokens, COVT distills knowledge from lightweight vision experts, capturing complementary properties such as 2D appearance, 3D geometry, spatial layout, and edge structure. During training, the VLM with COVT autoregressively predicts these visual tokens to reconstruct dense supervision signals (e.g., depth, segmentation, edges, and DINO features). At inference, the model reasons directly in the continuous visual token space, preserving efficiency while optionally decoding dense predictions for interpretability. Evaluated across more than ten diverse perception benchmarks, including CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, and HRBench, integrating COVT into strong VLMs such as Qwen2.5-VL and LLaVA consistently improves performance by 3% to 16% and demonstrates that compact continuous visual thinking enables more precise, grounded, and interpretable multimodal intelligence.
PDF294February 7, 2026